百度首秀 SREcon:開啓雲時代智能運維新方向

在 3 月 16 日舉行的國際頂級運維專家會議 SREcon 上,首次出現了國內公司身影:百度受邀參加,分享了他們在智能運維與診斷方向的經驗。在百度的日常業務中,他們很善於利用大數據分析和挖掘技術來定位大型分佈式系統的異常。

SREcon 是由計算機科學領域的知名機構 USENIX 主辦,Google、Facebook 等硅谷互聯網巨頭聯合成立的運維專家會議,每年定期舉行,今年的會議於當地時間 3 月 16 日 -17 日在美國加州舉行。參與會議的嘉賓來自於 Google,Facebook,Twitter, LinkedIn, Dropbox 等國際知名互聯網公司的頂級專家,討論網站可靠性工程相關的議題,一般包含大型互聯網產品可用性提升、資源優化及性能改善等,SREcon 上的討論往往會成爲未來很長一段時間運維領域的風向標。

過去,在百度的龐大運維體系中,一些問題常常如影隨形。例如,針對監控和問題定位常常存在監控缺失、監控誤報、問題診斷低效等問題,爲此,百度利用數據挖掘、機器學習技術推出 BIMS(Baidu Intelligent Monitoring System,百度智能監控與定位系統),可以自動、準確、高效地發現異常,並找到問題的主要原因。這也是國內公司首次將數據挖掘運用於網站運維領域的成功實踐,在國際上也是比較前沿的課題。

通過百度的技術分享,我們可以看到智能化的報警與診斷是 BIMS 的精華所在,這極大解放了百度的運維工程師。

1427037778642

發現故障:BIMS 自動學習歷史數據特徵,精準檢測異常並報警

由於百度產品的複雜性,傳統監控系統採集到的指標條目數以千萬計,而人工配置監控的方式難免出現遺漏或錯誤。BIMS 系統致力於數據的自動識別和判斷,並且做到高時效性和準確性。其異常檢測系統分成離線和在線兩個部分,離線部分主要是對各類型指標歷史數據進行分類和學習,並經過相匹配的異常檢測方法訓練合適的檢測參數,最終生成一套異常檢測配置庫。而在線系統通過加載異常檢測配置庫,將數據用與之相匹配的異常檢測算法檢測,並用訓練好的參數閾值形成最終的異常事件。

另外,針對瞬報及反覆報警等問題,系統採用一種報警自動過濾方法,通過隱馬爾可夫模型,找到前述所形成異常狀態序列的實際隱含狀態序列,用真實狀態來觸發報警。

BaiduHi_2015-3-13_13-49-16

診斷與修復:BIMS 快速診斷定位問題,幫助服務快速止損和恢復

BIMS 建立的診斷模型主要由業務診斷模型與運維診斷模型組成。針對業務層面,系統把人的定位經驗和思想轉化成一棵診斷樹。根據各類事件的關係,進入這棵樹進行推導,找到原因。同時,在業務推導的過程中,一個總體指標的下降,往往是由於一個很小的分指標或者子指標造成,系統可採用數據分析的手段,自動計算出子指標對總指標的損失影響,並推薦出影響最大的指標因子。

運維層面的問題複雜性主要由錯綜複雜的系統模塊關聯關係和大量運維指標和相關事件造成,通過特殊算法處理,系統將異常報警、服務變更等運維事件與模塊關係視圖產生關聯,通過在模塊的關係圖上進行推導得出故障問題的核心原因。同時,系統可以知曉某一類變更對具體到產品、模塊、指標所產生的影響,進一步證實故障發生根源定位的可靠性。

用戶體驗:數據可視化助力系統監控和問題診斷

BIMS 系統建立了一個產品或服務的總體服務視圖,包括上層業務關係、底層模塊關係、每個模塊的核心指標、發生的變更事件、報警事件等。一旦產品發生異常,工程師可以通過這個視圖快速定位並嘗試解決。

同時,該系統也引入很多有趣的小功能。例如,把離散的異常點轉變爲異常事件區塊,以及運維事件熱力圖等,輔助工程師快速解決問題。

百度運維能力的體現

通過參加此次會議,百度就產品可用性、速度優化、資源優化等方面與業內同行進行了深入交流,而百度的運維能力也得到了 Google、Facebook 等公司 SRE 團隊 Leader 的極大肯定。

大會主席,GoogleSRE 團隊 Sabrina Farmer 對百度運維的能力表示肯定,同時也表示,希望與百度合作將 SREcon 引入中國,與更多中國公司溝通討論,一同推進 SRE 領域的持續發展。Facebook、LinkedIn 的工程師,對百度的運維 / 開發人數比表示驚訝,如此少的人數能夠 hold 住這麼多產品的運維,實在是了不起的成就。

同時,百度資源利用水平已經超過業界平均值近 100%,各公司均對此成績深表佩服。

而在深層運維技術研究層面,百度持續加大投入,在監控與問題診斷、流量調度、資源優化等技術方面形成了強有力的支撐。2015 年來,已經在 SIGKDD、VLDB 等國際頂級會議,投出 4 篇 paper,可見百度的運維技術已經從工程化實施,走向做深與打透,希望運用數據挖掘、機器學習等技術,使運維自動化、智能化,從更高層面解決系統問題,爲業務產品提供價值。

總結:百度運維在 SRE 會議上的成功,充分證明了百度的研發和創新能力,也標誌着百度的運維水平已率先從自動化向智能化轉變。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章