系統穩定性治理的囚徒困境

筆者之前在大型的技術團隊裏，參與維護幾個應用，這些應用由於較爲老舊，存在較多的穩定性問題，因此係統短信告警頻繁，治理又非常麻煩，老闆不關注，屬於典型的吃力不討好的事情。那麼如何保障系統的穩定性，解決告警問題變成了一個囚徒困境問題。
及每個同學都選擇了忽略系統告警問題，最終導致線上問題頻繁，最終出故障影響整體團隊KPI。

經典囚徒困境如上簡圖所示，如果A和B都認罪，則各判5年；如果一個沉默一個認罪，則認罪的立即釋放，而沉默的判10年；如果沉默，則各判1年。

如上分析，兩個人都沉默的話，各判1年的整體最好的結局，但是實際上兩個囚徒都會選擇認罪，即各判5年，這個明明有整體最優解的情況下，實際上都會選擇不優解，就是囚徒困境。

系統穩定性的囚徒困境解析

以一個系統爲例，有多個用戶都是系統的負責人，並且老闆沒有強勢介入的情況下，此時如果發生了系統告警，如果有其他人去解決系統告警，我沒有去解決，則我得到了收益；如果其他人不去解決系統告警，放任系統，我沒有去解決，則我依然是最佳收益，此時系統出問題了，也不會怪罪我一個人。

當A和B都看告警並治理，則系統保持穩定，每個人都有5分收益值；如果B同學看告警並治理，則A坐享其成，收益值爲10，而B花費時間治理告警，收益值-5；如果兩人都不看，則系統發生故障，兩人的收益值都爲0.

總上所示，對於A來說，不去管系統的告警，都是在各類博弈下的最佳收益。對B同理，因此最終結果是兩個人的收益值是0.而從整體上來看，最佳收益值是兩個同學都去看告警並處理，保持系統穩定。
在實際上，筆者之前遇到的最終，就是手機短信報警高達每天幾百條，最多的時候，一天手機收到了5萬條告警短息。

囚徒困境的治理

囚徒困境在理論上的治理已經有較爲完善的方案，不外乎下面幾種：
1、利用無限次重複博弈（例如，經典的針鋒相對策略、冷酷策略等）
2、利用信息不完全（例如，聲譽效用、個體類型等）
3、利用心智模型，放鬆主體假定（例如帶有同情的博弈）
4、本方可以採取一些措施（如降低本方的收益，籤協議）讓對方有理由相信你沒有動機產生偏離，從而有動機產生合作

系統穩定性治理的方法

那麼在系統穩定性治理裏，老闆或者整體團隊可以有以下的治理和落地方式：
1、修改收益值，即對於主動處理系統告警的同學更多的獎勵，比如每週統計表揚處理告警最多的同學，並將此納入KPI考覈中。
2、值班制度，每天有同學負責值班，值班週期內的所有問題由值班同學治理，不能及時完成的，添加到BUG定期跟蹤並統計。
3、減少收益值，比如懲罰制度，對於出現重大問題，由於不及時治理穩定性問題的同學全部予以重罰。例如在上述的例子中，如果所有人都不處理系統告警問題，則對全組同學進行懲罰。