記一次線上環境tcp鏈接爆滿導致服務響應慢的問題

記一次線上環境tcp鏈接爆滿導致服務響應慢的問題

事件還原:

  • 20200407凌晨接到運維人員電話,說app啓動充電響應很慢,無法正常的開啓充電;
  • 20200407凌晨,跟蹤日誌排查服務負載情況,但是過了一段時間自動恢復;
  • 20200408,要求服務器運維人員提供服務器的負載情況,沒有提供;
  • 20200409凌晨,同樣的時間出現服務響應時間過長的問題;
  • 20200410 要求服務器運維人員提供服務器的負載情況,根據負載日誌反應,在23:00-0:30時段內有大量的tcp鏈接,未釋放;
  • 20200410 23:30,跟蹤服務器的運行情況,發現在此時段有大量的cmd9請求通過tcp,據此我發現問題,cmd9本應該通過redis獲取數據,不會通過tcp獲取相應數據的,檢查配置文件,得出結果,callFromRedis=false。由於上次支持api升級設置的參數,後面沒有及時更改回來導致的。

問題總結

  • 如果可以發現實時問題,通過 jstack -l 9934 >> 9934.txt 獲取jvm堆棧信息,這裏面可以很清楚反饋服務器運行是的情況;
  • 在批量更新服務器配置時要做到細心,不能有遺漏;
  • 多溝通並且冷靜思考,遇到問題要冷靜查找問題,不可急躁,否則一頭亂麻,毫無思緒;
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章