百度網絡監控實戰 | 多維度分析方法

原創

AIOps智能运维

2019-07-30 13:01

作者簡介

李聰百度高級研發工程師

負責百度智能運維產品（Noah）監控數據分析相關工作，重點關注故障定位、異常檢測等相關領域技術。

乾貨概覽

在前一篇文章《百度網絡監控實戰 | 多維度分析應用場景》中，我們簡單介紹了一種多維度分析方法，用於預選疑似故障區域，可以大幅減少網絡監測的誤報。在本文中，我們會結合網絡監測數據的特點，詳細介紹這種多維度分析方法的實現細節。

逐層下鑽分析

我們要尋找的維度組合具有貢獻度高、一致性好兩個特點，在尋找這些目標維度組合的時候，最直接的方式是逐個維度組合進行檢測，但是網絡監控裏有幾百萬個維度組合，逐個檢查會消耗很多時間。

我們可以從全局數據出發，選擇最能區分成功、失敗探測樣本的維度進行下鑽。在下鑽的過程中，我們可以選擇把數據按照所選維度的各個取值拆成多份（如：源機房=A、源機房=B、源機房=C……），也可以選擇把數據按照是否包含所選維度取值拆成兩份（如：源機房=A、源機房!=A）。在網絡質量監測中，拆成兩份的方案要比拆成多個的方案更好。

我們用一個例子來說明原因。假設在某一時刻內網同時發生了兩個故障，分別是機房A出口故障和機房B入口故障。在這個情況下，正確的輸出應當包含兩個維度組合，分別是“源機房=A”、“目標機房=B”。

從全局數據出發，如果我們按照源機房的各個取值把數據拆成多份，如圖1，“目標機房=B”這個維度組合無法出現，因爲它在按照“源機房”維度拆分時已經被拆成“源機房=B，目標機房=B”、“源機房=C，目標機房=B”等多個小維度組合。這樣一來，“目標機房=B”這個故障將輸出爲多個子維度組合的故障，不能準確體現故障範圍。

而如果我們按照數據是否包含源機房A把數據拆成兩份，如圖2，“目標機房=B”可以更加完整地包含在“源機房!=A”的分支中，再經過一次拆分即可得到“源機房!=A，目標機房=B”這一維度組合。這個維度組合應當解釋爲，在我們認爲“源機房=A”存在故障的情況下，把受到這個故障干擾的數據去掉後(“源機房!=A”)，“目標機房=B”存在故障，所以“源機房!=A，目標機房=B”可以上升爲我們的目標維度組合“目標機房=B”。

圖1 按照所選維度的各個取值拆成多份下鑽的樣例

圖2 按照所選維度取值拆成兩份下鑽的樣例

這種分層下鑽的方法能夠找到貢獻度高、一致性好的目標維度組合，同時減少了需要分析的維度組合數量，比逐個維度組合進行檢查可以少花很多時間。

基於決策樹的自動分析

可以看到，這種分層下鑽的過程和決策樹生成的過程是比較類似的。

決策樹生成算法會從全局數據出發，選擇最能區分正例負例的屬性進行劃分，然後對子數據集遞歸地進行劃分，直到繼續劃分不太能區分正例和負例。所以前面的分層下鑽相當於把探測樣本的結果作爲類別、維度取值作爲屬性，構建了一棵二叉分類決策樹。

首先，把一個探測樣本作爲一條數據，探測樣本的結果作爲類別，把成功記作正例，失敗記作負例。這樣，最能區分正例、負例的屬性也就是最能區分成功、失敗樣本的屬性。

接下來，對探測樣本進行One-Hot編碼，每個維度取值展開成一個屬性。前面提到的“源機房=A”對應一個屬性，屬性有兩個取值“源機房=A”、“源機房!=A”，類似地，“目標機房=B”、“源ToR=1”等維度取值也分別對應一個屬性。這樣，對數據集進行劃分時使用的屬性就是用來把數據拆分成兩份的維度取值。

數據經過預處理之後，接下來的下鑽過程可以藉助決策樹生成算法完成。

如圖3，從全局數據出發，在各個屬性（“源機房=A”、“目標機房=B”、“源ToR=1”……）中選擇一個最能區分正例（成功樣本）和負例（失敗樣本）的屬性（“源機房=A”）進行劃分，之後繼續對子數據集遞歸地進行劃分，直到子集（“源機房=A”）使用各個屬性劃分的區別都不大。

圖3 二叉分類決策樹生成樣例

在生成的決策樹中，每一個葉子結點的成功、失敗探測樣本都是分佈比較均勻的，一致性較好，所以，成功率顯著低於正常情況的葉子結點就是需要報告的故障區域。

圖4 二叉分類決策樹上進行檢測的樣例

這樣分析得到的目標維度組合排除了直接判定法誤報的情況，所返回的維度組合基本上能夠正確反應網絡故障影響的區域範圍。

屬性選擇方法

對於決策樹的每個節點，在選擇屬性進行劃分的時候，我們的候選屬性是所有維度取值，比如“源ToR=1”、“源ToR=8”、“源機房=A”、“源機房=H”、“目標機房=A”、“目標機房=H”等等，針對每個候選屬性，會使用一個函數進行打分，描述區分正負例樣本的效果，最後選擇分數最高的一個屬性。

常見的決策樹生成算法在正負例樣本不平衡的時候表現比較差，而網絡監測中失敗樣本（負例）的數量遠少於成功樣本（正例），讓這個問題變得比較明顯。

我們修改了選擇屬性時的度量函數，避免比較成功樣本和失敗樣本之間的相對大小，而是比較成功樣本在各子節點的分佈和失敗樣本在各子節點的分佈。

在把全局數據劃分爲“源機房=A”、“源機房!=A”的時候，成功樣本在兩個子集的分佈是，我們把這個分佈記作，失敗樣本在兩個子集的分佈是，記作，那麼，分佈P和Q差異最大的屬性也就是最能區分成功樣本和失敗樣本的屬性。

我們選擇了（海林格距離）來描述這兩個分佈的差異。把全局數據劃分爲“源機房=A”、“源機房!=A”的得分：

類似地，可以計算其他屬性的海林格距離：

可以看到，使用源機房A進行拆分的海林格距離最大，所以選擇按源機房A這個屬性把數據拆成兩份，這個劃分結果和人工下鑽時的感受是一致的。

總結

本文提出的這種多維度分析方法考慮了很多內網質量監測的特點。考慮到維度組合非常多，我們在尋找目標維度組合的過程中進行了剪枝；考慮到目標維度組合可能是多個，我們選擇的剪枝方案是二叉決策樹；考慮到成功樣本比失敗樣本多很多，我們在生成決策樹時使用海林格距離選擇屬性。

在其他場景中，數據可能沒有這樣的特點，這些情況下，需要選擇什麼指標描述一致性，選擇什麼方法進行剪枝，有的已經有了一些實踐經驗，有的還在嘗試，需要進一步探索。歡迎大家留言交流相關場景和問題。

RECOMMEND推薦閱讀

↓↓ 點擊"閱讀原文" 【瞭解更多精彩內容】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

10分鐘搞定Mysql主從部署配置

流程 Master數據庫安裝 Slave數據庫安裝配置Master數據庫配置Slave數據庫網絡信息 Master數據庫IP：192.168.198.133 Slave數據庫IP：192.168.198.132 配置Maste

2024-05-17 14:31:12

無法AC，關於使用fgets碰到的問題——末尾多一個換行符

題目是輸入一串字符串，包含空格，裏面有多個單詞，將每個單詞翻轉輸出，並且單詞之間的空格要與原文一致。寫的時候沒有使用string的輸入，而是選擇了char數組的輸入。樣例測試hello world->olleh dlrow是沒有問題的，

2024-05-17 14:30:52

lightdb秒級增加列和刪除列（not null帶默認值）

　　對數據量過億的大表而言，dba最頭疼的是隨着業務變化增加帶默認值的字段，以及修改字段的數據類型，在實現不好的數據庫中，動不動執行半天，中途失敗的話，還會卡半天。這在lightdb中是不會發生的。如下所示： lightdb@oradb=

2024-05-17 14:28:42

lightdb mysql 8.0兼容之不可見主鍵

　　數據庫設計通常需要滿足一定的範式要求，其中主鍵更是最基本的要求。不過，數據庫管理系統卻允許我們創建沒有主鍵的表。這樣的表在數據庫中會帶來查詢性能低下、複製延遲甚至無法實現高可用配置等問題。　　爲此，lightdb在22.1版本引入了一

2024-05-17 14:28:42

lightdb數據庫超時相關控制參數

　　在業務開發中，通常因爲代碼不規範、中間件缺陷、DBA誤提交批量SQL等原因，會導致服務端連接一直存在、但是實際上並未在執行的情況，從而導致數據庫連接泄露。爲了防止這種異常情況積壓，lightdb中包含了多個參數用於控制超時相關的行爲：

2024-05-17 14:28:42

如何使用 JS 判斷用戶是否處於活躍狀態

有時候，我們需要在網頁判斷用戶是否處與非活躍狀態，如果用戶長時間沒有在頁面上進行任何操作，我們則判定該用戶是非活躍的。在 javascript 中我們可以通過監聽某些鼠標或鍵盤相關的事件來判定用戶是否在活躍中。案例演示在線演示 - 使

2024-05-17 14:26:51

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

在前端開發過程中，調試的時候，我門會使用 console.log 等方式查看數據。但對於圖片來說，僅靠展示的數據與結構，是無法想象出圖片最終呈現的樣子的。雖然我們可以把圖片數據通過 img 標籤展示到頁面上，或將圖片下載下來進行預覽。但這

2024-05-17 14:26:51

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

安裝負載均衡metalb 安裝metalb kubectl create namespace metallb-system 配置metalb #kubectl create secret generic -n metallb-system

2024-05-17 14:25:27

Flink的State

有狀態的計算是流式計算框架的一個重要功能，很多複雜的計算場景都需要記錄一下相關的狀態。Flink State一種爲了滿足算子計算時需要歷史數據需求的，使用 checkpoint 機制進行容錯，存儲在 state backend 的數

人不瘋狂枉一生

2024-05-17 14:23:00

ASP.NET Core Web中使用AutoMapper進行對象映射

前言在日常開發中，我們常常需要將一個對象映射到另一個對象，這個過程中可能需要編寫大量的重複性代碼，如果每次都手動編寫，不僅會影響開發效率，而且當項目越來越複雜、龐大的時候還容易出現錯誤。爲了解決這個問題，對象映射庫就隨之而出了，這些庫可以

2024-05-17 14:22:00

第四節：MySQL主從集羣搭建、擴容與數據遷移、半同步複製詳解

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-05-17 14:21:40

RDLC降低使用內存

在Winform使用RDLC時，在批量打印情況下，內存隨着打印任務的數量逐漸增加。即便手動GC效果也不明顯。原因： localReport在創建時，每個實例都是一個應用程序域。租約的過期時間比較久，按照網上的資料，過期時間大約10分鐘左右

煙臺西炮臺

2024-05-17 14:21:20

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

1、Solon Cloud Event？是 Solon 分佈式事件總線的解決方案。也是 Solon “最終一致性”分佈式事務的解決方案之一 2、事務特性事務？就是要求 Event 有原子性，當多個 Event 發佈時，要麼全成功，要麼

2024-05-17 14:21:09

AI-FastGPT安裝

最近開始體驗FastGPT知識庫問答系統，參考官方文檔，在自己的阿里雲服務器使用Docker Compose快速完成了部署。環境說明：阿里雲ECS，2核8G，X86架構，CentOS 7.9操作系統。 Docker與Docker-Com

2024-05-17 14:14:58

matlab練習程序（線性常微分方程組矩陣解）

之前有通過ode和simulink解線性常微分方程組。除了上面兩種方法，線性常微分方程組還可以通過矩陣的方法求解。比如下面這個之前使用的方程組： x'' = x' - x + y' -z' y'' = y' - y - x' z'' =

2024-05-17 14:11:07

24小時熱門文章

最新文章

最新評論文章