supervisor写了个死锁。。。

一.现象描述:


更新完服务器,发现无法进入游戏了,看日志,没有任何明显信息。最后尝试停服重启,结果application:stop都不相应。

二.原因分析:没办法,只好去分析代码,这次停服更新,只改了一行代码,就是解决原来玩家卡死的问题。

解决办法是当玩家登录的时候,如果发现原来的进程在,就主动的停掉原来的进程,然后开启新的进程。自己找了个帐号,上线下线几次,感觉没问题,就更新了。

确实是测试不够啊,这是必现的问题。。。


开始浏览了很久的代码,都没发现问题,只好去线上看,发现这个supervisor居然阻塞了这么多消息,那问题肯定是这里了。

代码正在执行proc_lib:sync_wait这个函数,百度了一下,发现这个是gen_server实现代码的一部分。

重新看代码,玩家上线,supervisor启动对应的gen_server,gen_server初始化,检查是否有旧进程数据,发现有,去停掉旧进程。

停掉旧进程:supervisor:delete_child,gen_server:cast

跳转到supervisor的代码,发现。。。delete_child是gen_server:call。。。


于是,这里就进入了死锁。。。


果然对实现不理解的话,就能搞出bug,无论使用多么牛逼的语言。。


三.解决方法

stop使用其他方法解决

发布了75 篇原创文章 · 获赞 2 · 访问量 5万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章