概述
站點可靠性工程(SRE)是 IT 運維的軟件工程方案。SRE 團隊使用軟件作爲工具,來管理系統、解決問題並實現運維任務自動化。
SRE 執行的任務以前通常由運維團隊手動執行,或者交給使用軟件和自動化來解決問題和管理生產系統的工程師或運維團隊執行。
站點可靠性工程的概念由 Google 工程團隊的 Ben Treynor Sloss 第一個提出。
SRE 可以幫助團隊在發佈新功能和確保用戶可靠性之間找到平衡。
在這種背景下,標準化和自動化是 SRE 模型的兩大重要部分。在這裏,站點可靠性工程師尋求增強和自動化運維任務。
通過這些方式,SRE 有助於提高當今的系統可靠性,並且隨着時間的推移不斷提高。
SRE 支持團隊從傳統 IT 運維方案遷移至雲原生方案。
DevOps 和SRE
DevOps 是指對企業文化、業務自動化和平臺設計等方面進行全方位變革,從而實現迅捷、優質的服務交付,提升企業價值和響應能力。SRE 可視爲 DevOps 的實施。
和 DevOps 一樣,SRE 也與團隊文化和關係密切相連。SRE 和 DevOps 都致力於搭建開發團隊和運維團隊之間的互通橋樑,以便加快交付服務。
DevOps 和 SRE 實踐都可以實現更快的應用開發生命週期、改進的服務質量和可靠性,以及縮短的 IT 應用開發時間等優勢。
然而,SRE 與 DevOps 有所不同,因爲它依賴於開發團隊中的站點可靠性工程師,這些工程師也要有解決通信和工作流程問題的運維背景。
站點可靠性工程師本身要求職責重疊,兼具開發團隊和運維團隊的技能。
DevOps 團隊的開發人員常常疲於處理運維任務,需要擁有更專業運維技能,而 SRE 就能派上用場。
在編碼和構建新功能時,DevOps 專注於有效通過開發流程,而 SRE 專注於通過創建新功能來平衡站點可靠性。