線上服務502問題排查---Linux OOM Killer導致的進程消失現象

線上服務502問題排查

問題背景

線上運營平臺有兩臺2C4G的機器組成了集羣，其中服務器A上同時還部署了PDF打印等服務，很明顯4G內存吃緊，一直擔心服務會出現問題，不過運行小半年時間也沒遇到，就不再關心此事了。
有天值班時，運營人員反饋：運營平臺抽風了，時好時壞，嚴重影響了他們的工作。
這事兒可不小，得趕緊排查修復啊！

Linux 內核有個機制叫OOM killer（Out-Of-Memory killer），該機制會監控那些佔用內存過大，尤其是瞬間很快消耗大量內存的進程，爲了防止內存耗盡而內核會把該進程殺掉；
OOM(out-of-memory) killer是通過/proc/$PID/oom_score這個值來決定哪個進程被幹掉的。這個值是系統綜合進程的內存消耗量、CPU時間(utime + stime)、存活時間(uptime - start time)和oom_adj計算出的，消耗內存越多分越高，存活時間越長分越低；總的策略是：損失最少的工作，釋放最大的內存同時不傷及無辜的用了很大內存的進程，並且殺掉的進程數儘量少；
查看Linux系統的Java進程相關的信息，執行dmesg | grep java命令：

說明Java進程27372由於得分最高，被OOM_Killer機制給殺掉了；
sudo less /var/log/messages | grep oom-killer命令查看更多相關信息；
防止重要的進程被Linux殺掉：

參考：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.