【原創】談談線上CPU100%排查套路

引言

不知道在大家面試中,有沒有遇到這個問題

生產服務器上部署了幾個java程序,突然出現了CPU100%的異常告警,你如何定位出問題呢?

這個問題分爲兩版回答!
高調版
對不起,我是做研發的,這個問題在生產上是不可能遇見的!因爲研發是不可能直接操作生產服務器,如果貴公司研發能遇到這個問題,應該要反思一下自己的權限控制是否合理!

面試官心裏活動:裝13是不是,趕緊走!

低調版
這個問題我在生產上沒碰到過,因爲我們是沒法直接操作生產環境的。只能說,在測試環境曾經遇見過。操作步驟如下,balabala...

面試官心裏活動:權限控制的不錯,應該是在大廠呆過。

下面開始我們的正文

正文

下面給出兩種系統環節下的排查步驟,都是一模一樣的,只是命令稍有區別!

  • 查消耗cpu最高的進程Pid
  • 根據Pid查出消耗cpu最高的線程號
  • 根據線程號查出對應的java線程,進行處理。

準備一行死循環代碼

public class TestFor {
    public static void main(String[] args) {
        int random = 0;
        while (random < 100) {
            random = random * 10;
        }
    }
}

怎麼跑,應該不用我說了,直接教大家怎麼查!

Windows版

可能有人有疑問,我爲什麼要說Windows版的!因爲,我曾經給很多政府部門做過系統。我發現他們用的是Windows Server,不是Linux系統。所有必要說一下!

查消耗Cpu最高的進程PID

手邊沒有Windows Server機器,我以Win 10爲例,截圖給大家看一下,先調出PID顯示項!

然後發現進程PID如下圖所示,爲10856

接下來呢

根據PID查出消耗Cpu最高的線程號

這裏用到微軟的工具Process Explorer v16.22,地址如下
https://docs.microsoft.com/zh-cn/sysinternals/downloads/process-explorer
如圖所示

發現最耗Cpu的線程的TID6616
這是十進制的數據,轉成十六進制爲0x19d8

根據線程號查出對應的java線程,進行處理

執行命令

jstack -l 10856 > c:/10856.stack

打開文件c:/10856.stack,搜索19d8,如下圖所示

根據文件就可以看出,我們的TestFor.java文件第七行一直在跑,至此定位到問題

Linux版

Linux版本,步驟是一模一樣的,就是命令換了一下

查消耗Cpu最高的進程PID

執行命令

  • 執行top -c ,顯示進程運行信息列表。按下P,進程按照Cpu使用率排序

如下圖所示,PID3033的進程耗費Cpu最高

根據Pid查出消耗Cpu最高的線程號

執行命令

  • top -Hp 3033 ,顯示一個進程的線程運行信息列表。按下P,進程按照Cpu使用率排序

如下圖所示,PID3034的線程耗費Cpu最高

這是十進制的數據,轉成十六進制爲0Xbda

根據線程號查出對應的java線程,進行處理

jstack -l 3033 > ./3033.stack

然後執行,grep命令,看線程0xbda做了什麼

cat 3033.stack |grep 'bda' -C 8

輸出如下

至此定位到問題

總結

大家記得一定要去實際操作一次!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章