對比型數據
對比型數據:對比兩組或兩組以上數據的差異
常用圖表及其視覺通道:
高度差異:柱形圖
寬度差異:條形圖
面積差異:面積圖/氣泡圖
字號差異:單詞雲圖
形狀差異:雷達圖/星狀圖
柱狀圖
分類
柱狀圖可大概分爲單一柱狀圖,重疊型柱狀圖,並列柱狀圖和堆疊柱狀圖4種。
適用場景
- 單一柱狀圖
適合單一類別的數據對比,也適合表示離散型時序數據的趨勢
- 重疊型柱狀圖
適合兩個類別的數據對比
- 並列柱狀圖
適合兩個或三個數據類別的數據,若數據類別超出3個,則不建議使用
- 堆疊柱狀圖
適合既要對比總體的數據,又要對比總體各構成項的數據,但是總構成項一般不要大於5個,如果超過5個,可按佔總體的比例進行歸類,展示Top5,其餘歸入“其他”
注意事項
- 需要注意柱子間的間隔要與柱子的寬度要有明顯的區別,如果間隔的寬度和柱形寬度相近,視覺上就會產生振動效應,給人感覺柱形和間隔的角色發生了互換
- 需要注意柱子不能過於密集,如果柱子間隔寬度過小或者柱形圖的柱子數量過多,會產生密集感,不易於使用者分辨數據
- 柱子的寬度不能過寬,會顯得柱子肥大,不易於使用者從左至右觀察數據總體變化趨勢
條形圖
條形圖在大部分情況下,是可以互換的,但有些情況下,條形圖會比柱形圖更好的展示數據:
- 條形圖對比柱形圖而言,可以展示更多的數據,但一般不要超過30條
- 當分類項的文本過長時,柱形圖的文本需要進行旋轉才能不重疊,不利於閱讀,而條形圖就沒有這個缺點。
面積圖
面積圖,是折線圖的一種延伸,其實就是折線圖和折線圖投影到X軸的直線所圍成的面積
分類
按對比方式的不同,面積圖可以分爲重疊對比型面積圖和堆砌對比型面積圖
適用場景
- 重疊對比型面積圖
所有系列的面積基線都是X軸,系列之間有重疊和覆蓋的關係。適用於分析各個系列隨時間變化趨勢的場景 - 堆砌對比型面積圖
只有底層系列的面積基線和X軸重合,其他系列都是堆砌在它們下面一組的數據上面。適用於既需要分析整體隨時間的變化趨勢,又要了解整體的各構成項隨時間的變化趨勢的場景
氣泡圖
氣泡圖和散點圖的區別是,氣泡圖一般用於三維數據的可視化,而散點圖適用於二維數據的可視化。氣泡圖除了與散點圖一樣反映座標點X,Y的相關關係,還可以將一個維度的數據映射到氣泡的面積大小或者顏色深淺上。
分類-適用場景
如果需要展示三維數據信息,可使用氣泡圖;而如果需要展示二維數據信息,可使用散點圖。當需要展示多個系列的數據時,可以使用多種顏色表示不同系列
注意事項
- 在氣泡圖中,需要確定使用圓的面積來表示數據大小,如果使用半徑或者直徑,則會出現使用者通過氣泡大小獲取兩個數據大小關係信息時,產生錯誤。例如A=2B,則A的氣泡麪積應該時B的兩倍,如果A氣泡的半徑是B氣泡半徑的兩倍,則A氣泡麪積是B氣泡麪積的4倍,這會對使用者比較A,B大小時,產生傳遞錯誤信息的效果。
- 需要注意氣泡圖的圖形透明度,因爲氣泡圖圖形可能會有覆蓋的情況,所以需要調整圖形透明度防止圖形的相互覆蓋。(如果散點圖有這樣的情況,也需要調整圓點的透明度)
單詞雲圖
單詞雲圖,通過單詞的字號大小來反映詞頻的大小,字號越大,詞頻越高。通常,爲了達到貼合主體的特徵,以及視覺美觀的目的,用戶可以自定義單詞雲的配色方案,背景形狀等設計層面的個性化。
適用場景
單詞雲圖,主要是用於文本數據中詞頻數據的可視化。
注意事項
單次雲圖只適合表示一組文本數據的對比,不適合多個類別的文本數據之間的比較。
雷達圖/星狀圖
分類-適用場景
- 雷達圖
雷達圖是一體多維的數據,即可視化的對象是一個主題,只是這個主體具有多個維度上的數據特徵。對比的是,同一個主體,在不同維度上的數值,可以看出主體在不同維度上的偏向;
- 星狀圖
星狀圖是多體多維的數據,即可視化的對象是多個主體,且多個主體維度相同,且單個主體具有多個維度上的數據特徵。對比的是,多個主體,在同一緯度上的數值,可以看出不同主體之間的差異和側重點。
簡單理解就是,雷達圖可以視爲是星狀圖中的一行記錄。
分佈型數據
研究數據分佈的集中趨勢,離散程度,偏態和峯度等
直方圖
分類-適用場景
我們常用的直方圖,主要有頻數直方圖和頻率直方圖,它們都是用於展示離散型分組數據的分佈情況。
繪製直方圖的步驟
首先,對數據進行分組,然後統計每個分組內數據的頻數和頻率。
其次,在平面直角座標系中,橫軸標出每個組數據的下限和上限。
最後,縱軸表示頻數或頻率,每個矩形的高代表對應的頻數或頻率。
注:在頻數分佈直方圖中,頻數乘以組距得出每個分組的數量,可以看出頻數分佈直方圖是用面積來映射每個分組頻率的大小,矩形高是映射頻率/組距的數值,和柱狀圖(條形圖)用長方形的高度(寬度)表示數量是有本質性區別的。
莖葉圖
莖葉圖一般適合數據爲整數的數據的可視化
莖葉圖的原理是,將一組數據按照數據位數進行比較,將數據中的高位數作爲樹莖,低位數作爲樹葉。
莖葉圖使用較少,因爲一般而言,可以用條形圖或其他圖表替代使用,所以此處不詳細展開。
箱線圖
箱線圖可以展示一組數據的下四分位數Q1,中位數,上四分位數Q3,最大值和最小值。
具體說明
- 箱子的中間一條線,是數據的中位數,代表了樣本數據的平均水平。
- 箱子的上下限,分別是數據的上四分位數Q3和下四分位數Q1,這代表箱體部分包含了數據集中50%的數據,因此,箱子的寬度(四分位距=Q3-Q1)在一定程度上反映了數據的離散程度。
- 在箱子的上方和下方,又各有一條線,有時候代表着最大最小值,有時候代表的是上下內限。如果有點位於內限之外,理解成異常值就好。
適用場景
- 對比多組數據的分佈情況
- 檢測數據中的異常值或離羣點
概率密度圖
用於描述連續型隨機變量其分佈規律。通過圖形化的方式,我們可以清楚的看到隨機變量分佈的對稱性情況,以及隨機變量取值是集中還是分散,這些可以通過偏態係數和峯度係數來度量。
氣泡圖/散點圖
可以參照對比型數據中相應介紹,此處不詳細描述
熱力圖
通過密度函數進行可視化,用於表示地圖中點的密度的熱圖使用顏色的深淺來表示數據密度的大小,通過查看顏色的“深淺”獲取數據密度的分佈。
目前熱力圖在地圖,網頁分析,業務數據分析等領域有比較廣泛的應用。
地圖
當數據帶有地理型信息屬性時,首選的可視化圖表爲地圖。地圖可表達整體數據在各區域的分佈情況以及具體到某個地理區域的數據情況。
最後
我們首先需要確定我們需要使用數據表達的目的,有了目的,再看數據的類型,特徵及數據間的相互關係,有了這些準備,我們再根據這些信息去選擇合適的圖表,圖表的選擇是爲更好更準確的傳達數據背後的信息而服務的。
實踐
- 實踐1
思路1:目的是對比三家評分,所以選擇柱形圖,另外有4個系列的評分,所以選擇並列柱形圖
思路2:目的是比較三個主體的不同維度上的數值大小,可以選擇星型圖
並列柱形圖:
星型圖:
- 實踐2
思路:目的是看分佈,而且需要顯示三個維度的數據,選擇氣泡圖。選擇月度成本和月度收入作爲X,Y軸,評分以顏色深淺作爲視覺通道。
閱讀文章:《七天數據可視化之旅》第三天:數據圖表的選擇(中)