- 監控的4個黃金指標:錯誤、延遲、流量、飽和度(容量)。
- SLO服務水平目標,健康度檢測使用
- 運維平臺:
- 關於應急管理時,有沒有考慮過通過一鍵觸發的方式,將當前緊急情況通過內部通訊工具、郵件、短信等渠道觸達到系統相關人。這樣可以實時看到當前系統處理情況,調配各種資源協助,根據故障情況決定是否升級保障,記錄整個應急處理各時間點的過程,也便於編寫事後總結報告。當前應急處理時大家忙於處理問題,內部通訊工具裏的信息不能及時反映當前狀態,缺少有序管理的機制。
- 主備崗交接機制,藉助自動化服務平臺,將升級流程固化,降低學習成本。
- 以系統爲維度,將相關機器管理起來,管理主備崗運維操作機的登錄權限。
- 研發參與on-call
- 研發人員也參與運維on-call值班,或者出現業務設計不合理引發的bug,需要運維人員每日大量的手工處理,提高業務需求開發響應速度。
- 運維開發人員也參與運維on-call值班,可以發現運維的痛點,提高運維需求的響應速度。
- 生產問題Jira工單:
- 通過Jira記錄生產問題,通過5Y(what何事?why爲什麼?when何時?where何地?who關係誰?)分析問題原因,跟蹤問題解決進展。
- 事故報告,做的好的地方,不好的地方,從中學到了什麼?
- 通過一個wiki生產問題自定義流程,過濾出Jira