10 人,2 個月 | 蝦米音樂的監控體系升級之路

背景

監控一直是服務端掌握應用運行狀態的重要手段,經過近幾年的發展,阿里蝦米服務端目前已經有 100 多個 Java 應用,承擔核心業務的應用也有將近 50 個,對於應用的監控配置也是因人而異。有的人配置的監控比較細,有的應用在經歷了多人開發階段以後,監控就逐漸疏於管理,有些應用的監控項最後修改時間只停留到 2 年以前,早已不適應業務的發展。

與大部分團隊一樣,蝦米也有一個報警處理羣,將內部的監控報警平臺(如 Sunfire 等)的信息通過機器人投遞到羣中,由於監控項配置不合理、監控粒度較大,每天報警羣都被幾十條甚至上百條報警通知狂轟亂炸,長此以往大家對報警已經麻木,大部分報警也不會去處理。

基於這樣的現狀,蝦米 SRE 團隊(SRE全稱Site Reliability Engineering,最早由Google提出。致力於打造高可用、

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章