smokeping 比較完整監控設計和網絡分析對比

smokeping監控設計和網絡分析對比


目錄:
目錄:

6 部署監控內容:
6.1 主機對比
1 功能點:
2 原理:
3 怎樣看懂圖表:
整體如何看圖:
3.1 多主機概覽圖:
av md: 平均中位數
av ls:平均損失
av sd:平均標準偏差
am/as:平均中位數 和 平均標準差的 比率
線:
根據網絡抖動判斷:
3.2 細節圖:
軸:
看線條顏色曲線:
看煙霧(灰色塊):
看數據:
median rtt (中間數)
packetloss (丟包率)
loss color:
probe:20 ICMP Echo Pings every 60s
4 實際分析:
準確性?
怎麼利用這個特點:
延時性?
5 注意項:
7 告警配置:


總結:

通過smokeping可以查看/監控當前發起端到服務器端的網絡健康狀況。同時反過來也可以監控服務器到各個端點的網絡監控狀況。
1,那需要監控就需要哪裏部署smokeping。如,【學校網絡根據複雜情況需要部署至少一臺。】
網絡存在波動影響:我們可做的【減少考試時間段其他非考試機器網絡使用的影響。】
2,服務器部署:
監控各大ISP網絡
服務器當地ISP供應商網絡情況
增加考試點的出口網絡監控等
可以做橫向對比,監控網絡波動出現在那個點,還是面;判斷是學校出口流量過大/丟包,還是ISP供應商同時出現問題。(第6章 詳細描述)

合格網絡:
曲線無抖動/偶爾抖動,陰影不明顯。
ping值小於50ms還算合格。
概覽圖直線表示穩定,曲線表示抖動。抖動超過10ms代表網絡不穩定。
煙霧
中線顏色根據丟包率變化;丟包率低,不出現過多的藍,紫,無紅色塊。

一般丟包:
12次檢查中出現了3次丟包的情況,
嚴重:
rtt 如果連續出現兩次50毫秒以上的延時


6 部署監控內容:

部署最新版 smokeping 2.7.3
http://192.168.0.159:8004

部署docker-compose

6.1 主機對比

在這裏插入圖片描述
圖6-1

圖6-2
通過網站比較,判斷大賽服務器當前網絡和主流網站的網絡比較,ping質量測試響應速度和丟包率情況。
如下圖6-3,大賽232 (11.3ms 平均md響應;0.3%丟包率)服務器相對比 百度,搜狐,騰訊的響應和丟包率都要低(大賽服務器當前無壓力,ms毫秒的區別可以忽略)

圖6-3
下圖6-4,大賽232服務器和對應入口的大賽服務器的幾個上海電信節點的網絡監控。響應在11.2ms,丟包0.3%在合理範圍內。

再對比上下兩張圖的曲線,曲線的波動也是接近(分別是8點,10點菸霧波動比較大)。說明在8點,10點本地網絡出口流量比較大,網絡出口相對波動比較大。

圖6-4
在這裏插入圖片描述
圖6-5


1 功能點:
監控 本機房到xxx網絡 狀態和穩定性,通過圖表展示。

每一個綠色的短橫線都是一個測試回合300秒內向目標設備發送20個測探測數據包【參考probe項】。綠色畫出的是中間數的位置,一個回合中的其它值都在它附近被以灰度的形式被刻畫;灰度的範圍越小越好,灰色的範圍像是煙霧一樣籠罩在中間數附近。在中間數附近的煙越小越好,說明網絡很平穩。RTT曲線的起伏還顯示了網絡的負載情況。

1.1 可應用範圍:
服務器部署:
監控各大ISP運營商
監控服務器當地網絡運營商網絡情況
監控遠程考試點的網絡情況(考試點到服務器)

考試點部署:
考試點發起到服務器的網絡情況監控
考試點出口到各大ISP供應商網絡狀況


2 原理:

smokeping繪製每輪測量的數據包中間值(中線),和通過灰色陰影(煙霧)來展示測試時間段的網絡情況。同時用不同的中線顏色區分不同的丟包情況。
通過中線顏色(丟包情況)、和煙霧大小圖形化表明網絡的健康狀況。

對於每輪測量,smokeping發送幾個數據包。然後它對不同的往返時間進行排序並選擇中值(即中間的)。這意味着當有10個時間值時,選擇並繪製值5。其他值在背景中繪製爲連續較淺的灰色陰影(煙霧)。

有時會發送測試數據包但不會返回。這稱爲丟包。中線的顏色根據丟失的數據包的數量而變化。
所有這些信息一起表明了網絡健康狀況。例如,丟包是不應該發生的事情。這可能意味着鏈路中間的設備過載或某處的路由器配置錯誤。


3 怎樣看懂圖表:

整體如何看圖:

3.1 多主機概覽圖:

圖3-1 和圖一放大

av md: 平均中位數
average median 可以理解爲:ping質量測試的響應速度平均值
av ls:平均損失
average loss可以理解爲:ping質量測試的丟包率
av sd:平均標準偏差
在每一輪的多次測量的平均標準偏差
the average standard deviation of the multiple measurements in each round
am/as:平均中位數 和 平均標準差的 比率
the ratio of average median and average standard deviation

線:
直線表示穩定,曲線表示網絡抖動。

根據網絡抖動判斷:

圖3-2

像上圖3種曲線有明顯抖動,抖動範圍超過10ms的都屬於有網絡不穩定。
更詳細的可以點擊進去查看詳細報告看每天是否都是有規律的網絡抖動。

3.2 細節圖:

圖3-3

圖3-4

圖3-5

軸:
Y軸: 表示ping的時間值
X軸: 表示時間軸

看線條顏色曲線:
橫向線條顏色描繪了丟失數據包的數量。圖2爲拉長按天來看,就可以看到在一些時間段存在不同顏色(丟包)的情況。【圖3-1,圖3-2 中整體綠色,說明丟包情況良好】

豎向 黑色,綠色 或 藍色 等 【圖3 顏色豎條】線標示的是中間數的值(media rtt);不同顏色代表丟包情況,造成 median rtt 取值的偏差(參考下面 median rtt的解釋)。

看煙霧(灰色塊):
圖3-4 中:陰影部分表示有抖動20個測試數據包裏有部分時間值高但不丟包。
淺藍表示20個數據包裏有1個丟包。
線條周圍的暗區域顯示了各個探測器之間的變化量。灰度範圍越小越好,起伏太大說明網絡不穩定。【圖3-5 網絡不穩定】

看數據:
RTT (Round-TripTime)(往返時間):值的劇烈波動也表明網絡過載。這在圖上顯示爲煙霧; 煙霧越多,波動越大。
sd:standard deviation of the median中間數的標準偏差
am/s:ratio of average median vs standarddeviation平均中值和標準偏差的比值
計量 數值 時間區間 分析
平均 avg rtt 9.1ms 全圖時間7:55 - 10:50 它是每一個測試回合中所有的RTT算術平均值。
最大 max rtt 79.9ms 9:25 - 9:30
最小 min rtt 4.7ms -
sd rtt 16.1ms 全圖時間 標準差中位數
am/s rtt 564.7ms 全圖時間 平均中位數 和 標準差的 比率

median rtt (中間數)
它是中間數並不是平均值。探針在默認的設置下,每 300 秒向目標設備發送 20 測探測數據包。假如這 20個數據包都返回的話,它就記錄下了 20 個 rtt,那麼media rtt 就是第十個包的 RTT;如果有5 個包丟失的話,那麼media rtt 就是第八個返回的包的 rtt 值。

packetloss (丟包率)
通過ping包進行測試的進行測算。通過loss color進行展示。

loss color:
丟包情況從綠色 安全色 到 紅色 警告色。
如果是綠色的短橫線,說明一個300秒的週期內所有的包都返回都有RTT的時間記錄下來;如果是藍色的短橫線則說明有2個包丟失。

probe:20 ICMP Echo Pings every 60s
我們設置的是每60秒向目標設備發送20個探測數據包


4 實際分析:

準確性?

同時監控下圖4個不同的IP【(網址)分佈在不同的服務器】,在 2019/08/06 9:20的時間,網絡產生了波動。波動曲線接近相同。而這個波動影響源爲本地這個時段的網絡波動。所以不管smokeping監控那個服務器,從本地這個點發起,到達各個服務器都受到了影響。

結論: smokeping監控網絡爲點對點的ping數據。會受到當前網絡波動影響。

怎麼利用這個特點:
點對點的網絡數據,而我們考試場景基本爲 “學校 - 服務器”點對點。
受到當前網絡健康情況影響。我們無法干擾運營商的網絡波動,但是本身考試現場可以減少非考試機器的網絡使用干擾。

延時性?
記錄數據時間和當前時間存在幾分鐘的延遲。所以通過圖表看到的數據爲一個趨勢。
可以通過設置probe來改變探測包發送頻率。


5 注意項:
如果不出現圖像,連續不出現綠塊,說明smokeping沒有和對方建立連接,檢查本地網絡問題。

7 告警配置:

smokeping告警配置

自定義smokeping告警(郵件+短信)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章