我對線上質量監控大盤的思考

前面幾篇文章分享了生產環境質量保障面臨的四大挑戰,也聊了線上巡檢的落地注意事項,線上巡檢是生產環境質量保障的手段之一,其他手段還有配置變更驗證、應急響應和質量度量評估。

質量是定性的概念,但評估質量到底如何一定是需要定量度量的,否則無法進行持續的改進優化。這篇文章,分享一些我對於線上質量監控大盤的思考。

 

下圖是我結合自己的實踐經驗和學習所總結的一張質量監控大盤思維導圖:

 

巡檢類型

對線上的服務質量進行監控和度量,一般是通過巡檢的方式開展。巡檢主要分爲如下四種類型:

容量巡檢:簡單理解即在線上通過性能測試的方式對整個系統的容量和穩定性開展驗證;

防資損巡檢:梳理可能存在的導致資損的場景,然後通過定時任務去進行檢查,防患於未然;

核心業務巡檢:可以理解爲線上的主流程迴歸測試,但這裏的迴歸測試需要自動執行,且每次執行的結果都需要有數據沉澱和分析;

風險場景巡檢:針對線上曾經出現故障的場景、可能出現故障的場景,通過定時任務進行巡檢;

關於容量保障、線上防資損、風險場景的線上自動化巡檢,可參考前面的文章:

《構建高效的容量保障體系》

《通過線上巡檢,保障生產環境質量》

《業務防資損,質量保障的第一要務》

《控制風險,是質量保障的核心工作》

巡檢報告

巡檢報告很好理解,既然是對線上的服務質量進行檢查和度量,那每次巡檢肯定要出具對應的巡檢報告。巡檢產生的數據需要進行沉澱,然後對於低於預期或者異常的數據進行風險評估,並結合故障案例進行分析覆盤,制定對應的應對預案並更新線上的應急預案。

關於風險評估和線上覆盤以及應急預案,可參考前面的文章:

《聊聊穩定性預案》

《線上問題如何覆盤?》

《覆盤歸因,提高交付質量的祕訣》

《控制風險,是質量保障的核心工作》

巡檢規則

線上的質量檢查我個人建議都通過自動化的方式進行,自動化的好處很多,比如避免人爲誤操作,可以錯峯執行。那如何理解巡檢規則呢?簡單來說,巡檢規則就是自動化巡檢任務的斷言plus版本。比如:

容量巡檢,我們需要制定容量的參考值和通過值,在巡檢結束後進行對比,如果數據和基準值或者預期相差過大,則可以通過告警通知的方式提醒技術同學及時跟進排查。

業務巡檢規則,以優惠券業務爲例:要判斷優惠券的核銷,是否可以疊加使用以及大額優惠券刷單等場景。可能有同學存在疑問,這些規則完全可以在腳本中定義好,爲什麼要在質量大盤中單獨配置呢?原因主要有這幾點:

  • 降低自動化巡檢任務腳本的維護成本;
  • 巡檢規則統一配置和管理,降低規則變更帶來的不可控風險;
  • 規則變更和校驗在同一個模塊進行處理,降低質量監控大盤的耦合性;

巡檢對象

自動化巡檢的具象化形式,是通過自動化腳本,以任務調度去執行。但抽象總結一下,巡檢的對象主要有如下幾類:

  • 業務應用:巡檢的最小粒度是具體的某個場景,而大部分場景都是業務維度的場景;
  • 異常日誌&監控告警:風險巡檢和防資損巡檢,主要的巡檢對象就是日常日誌以及監控告警信息;
  • 配置變更:線上大部分故障都是變更引起的,因此針對線上的任何配置變更,都要引起注視,最好是case by case的建立巡檢任務進行檢查,避免出現線上故障;

配置數據管理

由於線上巡檢的風險較大,因此對於一些賬號和數據配置,最好是統一進行管理,維護和變更走審批和評審。其中比較重要的配置數據有如下幾種:

賬號數據:爲了避免造成數據污染,巡檢的賬號需要單獨配置和管理;

環境數據:除了線上巡檢,還可以結合測試環境的各種自動化測試任務,對不同環境開展測試工作;

權限數據:同樣,爲了避免造成數據污染,巡檢的賬號和其對應的巡檢權限範圍,也需要單獨配置管理;

黑白名單:線上巡檢任務大多由單獨的服務負責,爲了避免被線上風控攔截或者識別爲某些高頻訪問IP而禁止訪問,巡檢的賬號建議通過白名單配置的方式來維護;

 

關於線上環境的質量保障,本篇文章算是階段性的收尾了。在前面的文章中,我介紹了生產環境質量保障面臨的挑戰,如何控制風險,如何防資損,如何應急響應以及覆盤,做完這些工作,最終纔會有質量大盤這個概念。

質量保障工作並不僅限於測試環境,質量保障也需要長期持續的投入和優化,才能很好的對服務穩定性和業務可用性提供支撐,保障業務目標更好的達成,最終體現自己的價值。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章