先有利器,才好干活
- 通过pidin加参数 %B,可以看到当前进程的各个线程的STATE,例如:NANOSLEEP, SEM, JOIN,SEND,REPLY, RECEIVE, MUTEX, CONDVAR, 等等。
- QNX系统好一点的是,能够标明线程被锁住的mutex的地址,mutex隶属的线程,被锁住的次数。还能标明自线程REPLY、SEND等STATE下,所依赖的对方线程号。
本次问题出现在
MessageQueue类中的 pushMessage 和 handleMessage 两个方法公用一把锁来保护成员变量m_queue。一个MessageQueue的pushMessage方法会在调用线程, handleMessage会在MessageQueue自有线程中使用。当handleMessage中被客户端业务代码阻塞后,push就会被阻塞;
- 因此我的服务端的三条线程,通过两个MessageQueue, 两套锁, 关联起来。
- 客户端服务端通过qnx msg passing的同步机制,关联起来;
- 客户端通过同样的MessageQueue类, 两条线程的一套锁,关联起来;
最后,死锁来了:
- 客户端MessageQueue中自有线程中的handleMessage调用业务函数锁住;
- 导致客户端MessageQueue pushMessage 方法锁住;
- 导致服务端的MsgSend 阻塞在REPLY状态;
- 导致服务端两个 MessageQueue ,三个线程锁起来。
解决方法
客户端
handleMessageQueue中copy一份msg,把并把锁及时释放,原msg对象及时销毁,msg副本在客户端使用完后销毁。确保客户端卡主,不影响服务端。
服务端
业务和代码都可控,不需要msg copy。