線上問題覆盤,JVM Fast Throw 的故事

文章字數 1.3k 左右,閱讀時長 5 分鐘

首先,這是一個 悲傷的故事,涉及到JVM 底層優化的知識點。想到第一次碰到這種問題時的懵逼,應了句老話:書到用時方恨少!

負責的消息中臺在 晚上八點左右,運維羣裏反饋大量用戶接收不到短信消息。登陸 Kibana 查找對應的 Error 日誌,發現出現了 大量的下標越界異常

當時更...,線上問題得到了修復。但是,出現問題可不得找到問題的產出原因,不然下次有可能還會出現

因爲在 ELK 上進行 日誌分析不太方便,難以根據對應異常進行不同緯度上的統計分析,所以聯繫運維同學將故障產生當天的 Info、Error 日誌 拉下來進行線下分析

經過日誌分析得知,異常的產出有兩種,一種是有堆棧信息,比如:

java.lang.ArrayIndexOutOfBoundsException: -1
... 省略堆棧信息

另外一種,就比較詭異,只有異常,沒有對應的堆棧信息

java.lang.ArrayIndexOutOfBoundsException: null

第一種問題比較好定位,根據 異常堆棧信息,定位到了具體代碼,直接進行了修復,難就難在第二種

其實這兩個是一個異常,往後看小夥伴就明白了。後面做的所有事情,都是爲了搞清楚兩件事情

  • 爲什麼異常 message 會輸出 null
  • 爲什麼堆棧信息沒有輸出打印

JVM Fast Throw

什麼是 Fast Throw?

大白話一點來說,就是:當一些異常類型(空指針、下標越界、算術運算等...)在代碼裏的固定位置被拋出多次,虛擬機(HotSpot VM)會直接 拋出一個事先分配好、類型匹配的異常對象。此異常對象的 message 和 stack trace 都爲空

看到這裏相信讀者朋友已經明白了爲什麼同一種異常,打印出來的日誌卻是不一樣內容 了吧。就是因爲某一個異常在同一個地方多次被拋出,JVM 拋出一個預分配異常,那麼 message、stack trace 相當於被吞掉了

The compiler in the server VM now provides correct stack backtraces for all "cold" built-in exceptions. For performance purposes, when such an exception is thrown a few times, the method may be recompiled. After recompilation, the compiler may choose a faster tactic using preallocated exceptions that do not provide a stack trace. To disable completely the use of preallocated exceptions, use this new flag: -XX:-OmitStackTraceInFastThrow.

JDK 1.5 的發佈文檔介紹中描述了此情況,出現這種優化方案的原因是 爲了提高性能。當同一種異常在相同的位置被拋出多次,編譯器就會重新編譯此方法。重編譯後,編譯器可能會 使用不提供堆棧跟蹤的預分配異常 來選擇更快的策略

如果想要關閉這種預分配異常的機制,可以使用 -XX:-OmitStackTraceInFastThrow。感興趣的讀者朋友可以看一下發布說明:https://sourl.cn/PMzVkC

另外通過 JVM 的源碼得知,Fast Throw 機制目前支持五種異常情況,截圖如下

模擬 Fast Throw

上面說的都是理論部分,這個章節使用代碼來實戰下

List<String> list = new ArrayList();
for (int j = 0; j < 10000; j++) {
    try {
        list.get(-1);
    } catch (Exception ex) {
        int length = ex.getStackTrace().length;
        System.out.println(String.format("報錯異常 :: %s, 堆棧長度 :: %s", ex, length));
    }
}

上面程序跑在了 Java8 的環境中,通過運行程序結果可以看出來,Fast Throw 在 Java 8 中依然生效

如果沒有特別情況,最好不要關閉此特性。因爲如果併發量大的接口,因爲程序的 BUG 導致大量的請求在同一代碼處拋出異常,Fast Throw 機制可以節省很多性能損耗。通過單線程跑測試 Demo 得知,異常調用情況越多,性能差別越大

開啓 Fast Throw 關閉 Fast Throw
10w 1004ms 3547ms
100 w 6193ms 30928ms
500w 37492ms ...

如果線上環境觸發了 Fast Throw 機制,可以通過 向前追溯相同位置、相同異常的日誌 來定位問題的產出原因

結言

千言萬語匯成一句話就是,重構有風險,上線需謹慎

針對公共功能的重構,需要包含全量的測試用例,要將可能會出現的問題產出背景考慮到 極致,亦或者和身邊同事說明需求背景,大家一起想下,可以極大程度避免極端問題的產出

必要的壓力測試 是很重要的,這一點可以很好的將 流量大才能顯現的問題 提前暴露出來

故障的產生帶來的意義,有好有壞,壞的點大家都懂得;好的點自然是 積累了線上問題故障排查的經驗,這樣的話,後面公司妹子再遇到相同的問題,大喊一聲:妹子,放開那 BUG,讓我來!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章