一.现象描述:
更新完服务器,发现无法进入游戏了,看日志,没有任何明显信息。最后尝试停服重启,结果application:stop都不相应。
二.原因分析:没办法,只好去分析代码,这次停服更新,只改了一行代码,就是解决原来玩家卡死的问题。
解决办法是当玩家登录的时候,如果发现原来的进程在,就主动的停掉原来的进程,然后开启新的进程。自己找了个帐号,上线下线几次,感觉没问题,就更新了。
确实是测试不够啊,这是必现的问题。。。
开始浏览了很久的代码,都没发现问题,只好去线上看,发现这个supervisor居然阻塞了这么多消息,那问题肯定是这里了。
代码正在执行proc_lib:sync_wait这个函数,百度了一下,发现这个是gen_server实现代码的一部分。
重新看代码,玩家上线,supervisor启动对应的gen_server,gen_server初始化,检查是否有旧进程数据,发现有,去停掉旧进程。
停掉旧进程:supervisor:delete_child,gen_server:cast
跳转到supervisor的代码,发现。。。delete_child是gen_server:call。。。
于是,这里就进入了死锁。。。
果然对实现不理解的话,就能搞出bug,无论使用多么牛逼的语言。。
三.解决方法
stop使用其他方法解决