SRE Google運維解密_讀書筆記1

  1. 監控的4個黃金指標:錯誤、延遲、流量、飽和度(容量)。
  2. SLO服務水平目標,健康度檢測使用
  3. 運維平臺:
  1. 關於應急管理時,有沒有考慮過通過一鍵觸發的方式,將當前緊急情況通過內部通訊工具、郵件、短信等渠道觸達到系統相關人。這樣可以實時看到當前系統處理情況,調配各種資源協助,根據故障情況決定是否升級保障,記錄整個應急處理各時間點的過程,也便於編寫事後總結報告。當前應急處理時大家忙於處理問題,內部通訊工具裏的信息不能及時反映當前狀態,缺少有序管理的機制。
  2. 主備崗交接機制,藉助自動化服務平臺,將升級流程固化,降低學習成本。
  3. 以系統爲維度,將相關機器管理起來,管理主備崗運維操作機的登錄權限。
  1. 研發參與on-call
    1. 研發人員也參與運維on-call值班,或者出現業務設計不合理引發的bug,需要運維人員每日大量的手工處理,提高業務需求開發響應速度。
    2. 運維開發人員也參與運維on-call值班,可以發現運維的痛點,提高運維需求的響應速度。
  2. 生產問題Jira工單:
  3. 通過Jira記錄生產問題,通過5Y(what何事?why爲什麼?when何時?where何地?who關係誰?)分析問題原因,跟蹤問題解決進展。
  4. 事故報告,做的好的地方,不好的地方,從中學到了什麼?
  5. 通過一個wiki生產問題自定義流程,過濾出Jira
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章