線上CPU100%的排查思路

假設,服務器上部署了若干Java站點服務,以及若干Java微服務,突然收到運維的CPU異常告警。如何定位是哪個服務進程導致CPU過載.

哪個線程導致CPU過載,哪段代碼導致CPU過載?

簡要步驟如下:

(1)找到最耗CPU的進程;

(2)找到最耗CPU的線程;

(3)查看堆棧,定位線程在幹嘛,定位對應代碼;

步驟一、找到最耗CPU的進程

工具top方法

  • 執行top -c,顯示進程運行信息列表
  • 鍵入P (大寫p),進程按照CPU使用率排序

圖示:image
如上圖,最耗CPU的進程PID爲10765。

步驟二:找到最耗CPU的線程****工具:top方法

  • top -Hp 10765,顯示一個進程的線程運行信息列表
  • 鍵入P (大寫p),線程按照CPU使用率排序

圖示:image

如上圖,進程10765內,最耗CPU的線程PID爲10804。
步驟三:查看堆棧,定位線程在幹嘛,定位對應代碼
首先,將線程PID轉化爲16進制。工具:printf方法:printf “%x\n” 10804圖示:
image
如上圖,10804對應的16進制是0x2a34,當然,這一步可以用計算器。之所以要轉化爲16進制,是因爲堆棧裏,線程id是用16進製表示的。接着,查看堆棧,找到線程在幹嘛。
工具jstack
方法jstack 10765 | grep '0x2a34' -C5 --color

  • 打印進程堆棧
  • 通過線程id,過濾得到線程堆棧

圖示:
image
如上圖,找到了耗CPU高的線程對應的線程名稱“AsyncLogger-1”,以及看到了該線程正在執行代碼的堆棧。
最後,根據堆棧裏的信息,找到對應的代碼,搞定!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章