SRE讀書筆記——第一章

第一部分 從sysadmin到服務管理


        IT時代最初系統管理員(sysadmin),系統管理員負責將軟件組合到一起提供服務,並負責系統的升級工作.但是隨着系統複雜度的增加和事務的增加,系統管理員開始承受應對部端增多的事件和升級等工作.因爲系統管理員需要與產品開發人員不同的技能,開發人員和系統管理員被分成兩個團隊:"development"和"operations"或"ops".

        ops和development的分工廣義上造成了兩種陷阱:直接費用和間接費用.直接費用清楚明瞭.運行服務依賴於人工修改配置和處理事務,隨着業務的增長變的價格昂貴,因爲團隊隨着業務的產能的增加而增長.間接費用是微妙的,但是相比於直接費用,間接費用對於這個組織來說要比直接費用高.這種費用隨着兩個團隊完全不同的背景,技能和其他誘因等原因而增加.他們對相同的事務的看法會不同,因爲他們看待問題的角度不同,他們對技術方案的風險和可能性有不同的假設,最終導致一些病態的事情發生.

        傳統運維團隊與開發團隊往往以衝突告終,因爲運維團隊更關注軟件到生產環境的速度,而開發團隊更關注上線的新功能是否能被用戶接受,因爲運維人員想確保服務不會被無意中斷.因爲大多數的服務中斷都是由於新配置,新功能等引起的,這兩個團隊的目標從根本上就存在分歧.

第二部分 Google服務管理方法:Site Reliability Engineering


        衝突並不是提供軟件服務中不可避免的.google的做法是僱傭軟件工程師來運行自己的產品並負責開發系統完成大部分系統管理員需要完成的工作.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章