雲吞鋪子:性能抖動剖析-1

《雲吞鋪子-故障排查案例精選》重磅上線!首期我們將聚焦系統類常見問題——性能抖動,阿里雲高級技術專家江冉將分享多年故障排查心得體會與經典案例實戰經驗。完成學習,你就是明日技術大牛!
點擊查看視頻
查看原文
網絡抖動案例是一類處理難度較大的問題,原因主要是很多抖動發生的頻率不高,且持續時間非常短極限情況可能僅有100ms以下,而很多用戶的業務應用對實時性要求非常高,因此對此類在百毫秒的延遲也會非常敏感。本期雲吞鋪子記錄的是一次多團隊協作處理的抖動問題的過程,由於用戶的執着,也使得我們在這個案例分析得較爲深入,希望對大家今後的此類案例的處理有所啓發。

問題現象

讓我們先來看看問題現象吧,用戶的應用日誌記錄了百毫秒甚至1-2秒級別的延遲,而且發生較爲頻繁,由於業務的實時性要求較高,因此對業務的影響較大,當然其中也影響到了用戶對遷雲的信心。

初步排查

在用戶通過應用層面的排查懷疑問題來源於虛擬網絡環境的時候,我們需要做的第一件事就是首先要將問題簡單化。這一步是非常必要的,因爲我們對用戶的應用不可能有非常深入的瞭解,所以用戶的應用日誌具體含義和記錄方式對我們來說更像黑盒。我們所要做的是將問題現象轉移到我們常見的系統組件上來,比如簡單到ping。所以我們第一件所做的事情就是編寫腳本進行兩臺機器的內網互ping,並將每次ping的延遲記錄到文件。選擇ping當然也是由於ping的間隔是可以設置到百毫秒的,比較容易說明問題。

在互ping的測試中我們確實發現有百毫秒以上的延遲,那麼隨後我們爲了排除物理網絡的影響,選擇一臺機器進行對網關的ping測試,同樣發現了類似的延遲:
在這裏插入圖片描述
來看看上面的ping測試結果吧,初看也僅僅是一些百毫秒延遲的集中發生而已,但是仔細觀察就會發現每次發生都有這樣的情況,就是延遲在一組連續的ping上發生的,並且延遲是倒序排列的。那麼這意味着什麼呢?

詳細排查過程請查看視頻。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章