今天是沒有進步的一天,地基不牢,大樓搖搖欲墜,一出現問題,需要花很長的時間來排查問題和修補。
可以思考一下,怎樣才能更快更準確的去定位問題。
可也僅僅是定位,不是解決問題。
先說僅僅是效率的提升是否有意義?
每個人對系統理解深度不同,每次定位問題都需要多人蔘與,經常需要等人,時間極大浪費。以我自己參與的tracking issue爲例,每個問題至少3-4人蔘與,包括運維開發測試等,定位問題時間1h到幾天不等。如果提高問題定位精準度,每個issue至少可以節約0.3pd。
如何去提升定位效率?
這是個大話題,目前大部分公司還是依靠日誌和debug,人工分析,人工分析肯定不可避免。做自動定位也不是一蹴而就的,隨着系統的完善和對系統的瞭解更加深入,定位肯定會越來越準確。
粗略的想法:
1.分析調用鏈,找到斷鏈的節點
2.向上追溯問題的原因
3.將可疑的節點彙總,人工分析
在不斷的迭代中,更加準確的定位可疑節點,從而減少分析的工作量。
這裏現在就能想到一個問題,效率問題,分析不僅需要精確,也需要快速,不然大家就等不及了。還有個問題,如果迭代了,該如何維護,比如調用鏈變了。
粗略的想法,也不是適合所有場景。根據具體業務,還需要做深入分析。
但看起來自動分析定位,應該還是值得很嘗試的。