系統穩定性治理的囚徒困境

系統穩定性治理的囚徒困境

筆者之前在大型的技術團隊裏,參與維護幾個應用,這些應用由於較爲老舊,存在較多的穩定性問題,因此係統短信告警頻繁,治理又非常麻煩,老闆不關注,屬於典型的吃力不討好的事情。那麼如何保障系統的穩定性,解決告警問題變成了一個囚徒困境問題。
及每個同學都選擇了忽略系統告警問題,最終導致線上問題頻繁,最終出故障影響整體團隊KPI。

在這裏插入圖片描述

經典囚徒困境如上簡圖所示,如果A和B都認罪,則各判5年;如果一個沉默一個認罪,則認罪的立即釋放,而沉默的判10年;如果沉默,則各判1年。

如上分析,兩個人都沉默的話,各判1年的整體最好的結局,但是實際上兩個囚徒都會選擇認罪,即各判5年,這個明明有整體最優解的情況下,實際上都會選擇不優解,就是囚徒困境。

系統穩定性的囚徒困境解析

以一個系統爲例,有多個用戶都是系統的負責人,並且老闆沒有強勢介入的情況下,此時如果發生了系統告警,如果有其他人去解決系統告警,我沒有去解決,則我得到了收益;如果其他人不去解決系統告警,放任系統,我沒有去解決,則我依然是最佳收益,此時系統出問題了,也不會怪罪我一個人。

在這裏插入圖片描述

當A和B都看告警並治理,則系統保持穩定,每個人都有5分收益值;如果B同學看告警並治理,則A坐享其成,收益值爲10,而B花費時間治理告警,收益值-5;如果兩人都不看,則系統發生故障,兩人的收益值都爲0.

總上所示,對於A來說,不去管系統的告警,都是在各類博弈下的最佳收益。對B同理,因此最終結果是兩個人的收益值是0.而從整體上來看,最佳收益值是兩個同學都去看告警並處理,保持系統穩定。
在實際上,筆者之前遇到的最終,就是手機短信報警高達每天幾百條,最多的時候,一天手機收到了5萬條告警短息。

囚徒困境的治理

囚徒困境在理論上的治理已經有較爲完善的方案,不外乎下面幾種:
1、利用無限次重複博弈(例如,經典的針鋒相對策略、冷酷策略等)
2、利用信息不完全(例如,聲譽效用、個體類型等)
3、利用心智模型,放鬆主體假定(例如帶有同情的博弈)
4、本方可以採取一些措施(如降低本方的收益,籤協議)讓對方有理由相信你沒有動機產生偏離,從而有動機產生合作

系統穩定性治理的方法

那麼在系統穩定性治理裏,老闆或者整體團隊可以有以下的治理和落地方式:
1、修改收益值,即對於主動處理系統告警的同學更多的獎勵,比如每週統計表揚處理告警最多的同學,並將此納入KPI考覈中。
2、值班制度,每天有同學負責值班,值班週期內的所有問題由值班同學治理,不能及時完成的,添加到BUG定期跟蹤並統計。
3、減少收益值,比如懲罰制度,對於出現重大問題,由於不及時治理穩定性問題的同學全部予以重罰。例如在上述的例子中,如果所有人都不處理系統告警問題,則對全組同學進行懲罰。

在這裏插入圖片描述

發佈了344 篇原創文章 · 獲贊 25 · 訪問量 52萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章