指標圖101:摘要圖

這是有關監視數據可視化的系列文章中的第二篇。這篇文章着重於摘要圖。

在本系列的第一部分中,我們討論了時間序列圖-顯示基礎結構指標隨時間變化的可視化效果。在本文中,我們將介紹摘要圖,這些摘要圖是將特定時間段展平以提供基礎架構摘要窗口的可視化效果:

對於每種圖形類型,我們將說明其工作方式和使用時間。但是首先,我們將快速討論理解基礎結構摘要圖所必需的兩個概念:跨時間聚合(您可以將其視爲“時間變平”或“快照”)和跨空間聚合。

跨時間彙總

爲了提供指標的摘要視圖,可視化必須通過將時間維度壓縮到視線範圍之外,將時間序列展平爲單個值。這種跨時間的聚合可能意味着僅顯示度量查詢返回的最新值,或者更復雜的聚合以在移動時間窗口內返回計算值。

例如,您可能不希望顯示度量標準查詢的最新報告值,而是希望顯示每個主機在過去60分鐘內報告的最大值,以解決有問題的峯值:

[Redis延遲圖

跨空間聚合

並非所有指標查詢都有意義,可以按主機,容器或其他基礎結構單元劃分。因此,您通常需要跨空間進行一些聚合,以創建可合理反映您的基礎結構的度量可視化。這種聚合可以採用多種形式:通過消息隊列,數據庫表,應用程序或主機本身的某些屬性(操作系統,可用性區域,硬件配置文件等)來聚合度量。

跨空間的聚合使您可以對基礎架構進行切片和分割,以準確地隔離可觀察關鍵系統的指標。

與上面的示例中列出的主機級別的Redis峯值延遲相比,查看基於Redis構建的每個內部服務的峯值延遲可能更有用。或者,您只能顯示基礎結構中任何主機報告的最大值:

![Redis延遲圖]跨空間聚合:按服務名稱對主機進行分組(頂部)或將主機列表壓縮爲單個值(底部)

時間序列圖中的跨空間聚合也很有用。例如,很難理解Web請求的主機級圖表,但是當按可用性區域彙總指標時,可以輕鬆解釋相同的數據:

![Redis延遲圖]從未聚合的(折線圖,頂部)到跨空間的聚合(堆疊的面積圖,底部)

標記指標的主要原因是啓用跨空間聚合。

單值彙總

單值摘要使用條件格式(例如綠色/黃色/紅色背景)顯示給定度量查詢的當前值,以傳達該值是否在預期範圍內。單值摘要顯示的值不必表示瞬時測量。窗口小部件可以顯示報告的最新值,或者顯示在整個時間窗口內根據所有查詢值計算得出的彙總值。這些可視化爲您的基礎架構提供了一個狹窄但明確的窗口。

[主機計數小部件

何時使用單值摘要

什麼 爲什麼
給定系統的工作指標 使關鍵指標立即可見 每秒Web服務器請求每秒NGINX請求
關鍵資源指標 概覽資源狀況和健康狀況 負載均衡器背後的健康主機ELB主機總數
錯誤指標 快速引起對潛在問題的關注 致命數據庫異常Cassandra不可用的異常
與以前的值相比,計算的度量標準更改 清晰傳達關鍵趨勢 使用中的主機與一週前相比EC2主機增加

排行榜Toplists

排行榜是有序列表,可讓您按主機,羣集或基礎結構的任何其他網段的指標值對其進行排名。因爲它們很容易解釋,所以頂層列表在高級狀態面板中特別有用。

與單值摘要相比,頂列表在空間上具有附加的聚合層,因爲按組劃分了指標查詢的值。每個組可以是單個主機或相關主機的集合。

[AZ上的最大Redis延遲

何時使用名單

什麼 爲什麼
來自不同主機或組的工作或資源指標 一目瞭然地發現異常值,表現不佳或資源過度消費的人 每個應用服務器處理的積分服務器頂部列表
自定義指標作爲值列表返回 以易於閱讀的格式傳達KPI(例如,用於壁掛式顯示器上的狀態板) 正在使用的Datadog代理版本代理版本排行榜

變更圖表Change graphs

頂列表爲您提供了最近度量標準值的摘要,而變化圖則將度量標準的當前值與其過去某個時間點的值進行比較。

變更圖與其他可視化之間的主要區別在於,變更圖採用兩個不同的時間範圍作爲參數:一個用於評估窗口的大小,另一個用於設置回溯窗口。

[登錄失敗更改圖

何時使用變更圖

什麼 爲什麼
每天,每週或每月上升和下降的循環指標 將指標趨勢與定期基準分開 數據庫寫吞吐量,與上週同期相比[卡桑德拉寫入吞吐量
高級基礎架構指標 快速識別大規模趨勢 主機總數,與昨天同期相比[EC2主機計數變化圖

主機地圖Host maps

主機地圖是一種獨特的方式,使您可以一目瞭然地觀察整個基礎架構或其任何部分。但是,如果對基礎結構進行切片和切塊(按數據中心,按服務名稱,按實例類型等),您將看到所選組中的每個主機都是六邊形,並按這些主機報告的任何度量標準進行了顏色編碼和大小調整。

這種特定的可視化類型是Datadog獨有的。這樣,它是專門爲基礎結構監視而設計的,與本文其他地方描述的通用可視化相反。

[實例類型的主機映射

何時使用主機地圖

什麼 爲什麼
資源利用率指標 一目瞭然地發現過載的組件 每個應用程序主機的負載(按羣集分組)[每個集羣主機映射的負載
識別資源分配不當(例如,任何實例是否過大或過小) 每個EC2實例類型的CPU使用率[每個實例類型的CPU
錯誤或其他工作指標 快速識別降級的主機 每個服務器的HAProxy 5xx錯誤[每個HAProxy主機的服務器錯誤
相關\指標**** 在單個圖中查看相關性 應用服務器的吞吐量與使用的內存[每個HAProxy主機的服務器錯誤

發行版

分佈圖顯示了跨基礎架構部分的指標值的直方圖。圖表中的每個條形圖代表一個合併值的範圍,其高度對應於該範圍內報告值的實體數。

分佈圖與熱圖密切相關。兩者之間的主要區別在於,熱圖顯示了隨時間的變化,而分佈是時間窗口的摘要。像熱圖一樣,分佈可以方便地可視化報告特定度量的大量實體,因此它們經常用於在單個主機或容器級別上繪製度量圖形。

[每個Web服務器的延遲

何時使用發行版

什麼 爲什麼
大量實體報告的單一指標 一目瞭然地傳達總體健康狀況 每個主機的網絡延遲[每個主機分發的延遲
查看小組成員之間的差異 每個主機的正常運行時間[每個服務器分配的正常運行時間
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章