一、直方圖
直方圖可以直觀的看到數據的大致情況;一般有頻數分佈直方圖和頻率分佈直方圖兩種。
二、數據的計量尺度
數據的計量尺度是指對計量對象量化時採用的具體標準,它分爲以下四類:
- 定類尺度:表現爲“ 類別 ” ,各類之間無等級大小差別;
- 定序尺度:描述對象的類別,但具有固有的大小和高低順序;
- 定距尺度:數據間有固定的距離;
- 定比尺度:它還可以作爲比較的共同起點或基數;
序號 | 名稱 | 邏輯或數學運算 | 常見例子 | 數據類型 |
1 | 定類尺度 | 等於、不等於 | 性別、名族、職業 | 定性數據 |
2 | 定序尺度 | 等於、不等於、大於、小於 | 職稱、健康狀況、質量等級 | 定性數據 |
3 | 定距尺度 | 等於、不等於、大於、小於、加減法 | 年份、溫度、維度 | 定量數據 |
4 | 定比尺度 | 等於、不等於、大於、小於、加減乘除 | 質量、長度、能量 | 定量數據 |
三、數據的集中趨勢
集中趨勢是指一組數據向某一中心值靠攏的程度,它反映了一組數據中心點的位置所在;集中趨勢測度就是尋找數據水平的代表值或中心值。
3.1 定量數據:平均數
算術平均數:
加權平均數:
幾何平均數:
平均數可以描述定量數據的集中趨勢,只適用於定量數據,而且受極值的影響較大,容易向極值附近移動。
3.2 順序數據:中位數和分位數
將數據按大小排序後,處在數據中點位置的數值就是中位數,它將數據一分爲二;分位數是特殊的中位數,比如四分位數就是用3個點將有序數據四等分。
中位數主要用於測試順序數據的集中趨勢,也適用於定量數據的集中趨勢,但不適用於分類數據。
中位數位於 (n + 1 ) / 2 位置對應的數(n爲奇數); n/2 和 n/2 + 1 位置兩個數的平均值(n爲偶數)。
中位數是一個位置代表值,其特點就是不受極端值影響。
3.2 分類數據:衆數
衆數是一組數據中出現次數最多的值,它不唯一,可能沒有,可能不止一個。衆數是描述分類數據的集中趨勢,一般只有在數據量較大的情況下才有意義。
四、數據的離中趨勢
離中趨勢是指一組數據向某一中心值分散的程度,它反映的是數據遠離其中心點的程度,表示離中趨勢的指標主要有極差、四分位距、平均差、方差、標準差和離散係數。
4.1 極差
極差也叫全距,展示了數據的整體跨度,是一個比較粗糙的離中趨勢指標。
極差 = 最大值 - 最小值
4.2 分位距
分位距是對全距的一種改進,它剔除掉了兩端的極值區域,常用的有四分位距、八分位距、十分位距等;
四分位距 = (第三個四分位數 - 第一個四分位數)/ 2
4.3 平均差
平均差是數據組中各數據值與其算術平均數離差絕對值的算術平均數;
當變量數列是由沒有分組的數組組成或分組後每組的次數相等的數據組成時採用。
由於平均差是根據數列中所有的數值計算出來的,受極端值影響較小,所以對整個統計數列的離中趨勢有較充分的代表性。
4.4 方差與標準差
方差是數據組中各數據值與其算術平均數離差平方的算術平均數,用表示。標準差是方差開根號。
標準差
標準差的實質與平均差基本相同,只不過處理方法不一樣,平均差用絕對值消除正負差異後取算術平均數;而標準差用平方消除正負差異再取算術平均數後開方;標準差的指標更靈敏,因此它成爲各種離中趨勢指標中最重要的一種。
經驗所得,一般68%(三分之二)的數據在離平均數1個範圍內;95%(二十分之十九)的數據在距平均數2個範圍內。
4.5 離散係數
極差、平均差、標準差評定的離中趨勢與變量平均水平的高低有關,如果要比較數據平均水平不同的兩組數據的離中程度的大小,我們需要計算它們的相對離中程度指標,即離散係數。而離散係數中常用的指標是標準差係數。
標準差係數的公式:
總結:一般比較數據的離中趨勢時,我麼首先計算兩組數據的極差和四分位距,看看數據的大致跨度,然後計算算術平均數查看數據的大致中心位置,如果平均數相同,可以計算一下平均差或者標準差來查看,如果平均數不同則可計算標準差係數來查看離中趨勢。
五、數據分佈的測度
在描述性統計中,處理集中趨勢和離中趨勢,我們還可以用數據的分佈形狀來分析,數據分佈形態主要以正態分佈爲標準進行衡量。
5.1 數據偏態及其測定
數據分佈的不對稱性稱作偏態。偏態是指數據分佈的偏斜方向和程度。在對稱分佈的情況下,平均數、中位數和衆數是相同的;但在偏態分佈的情況下,他們是不同的。如果衆數在左邊,平均數在右邊,這說明數據的極端值在右邊,數據分佈曲線向右延伸,這稱爲右向偏態(正向偏態)。
測定偏態的指標是偏態係數(SK),它說明了數據分佈的不對稱性(偏斜程度)程度。
SK = 0時,分佈是對稱的;SK < 0時,分佈呈負偏態,並且值越小,負偏程度越高;SK > 0時,分佈呈正偏態,並且值越大,正偏程度越高。
5.2 數據峯度及其測定
峯度是指數據分佈的尖峭程度或峯凸程度。根據變量值的集中與分散程度,峯度一般可表現爲三種形態:尖頂峯度、平頂峯度和標準峯度。但是這種形態的描述都是相對於正態分佈曲線的標準峯度而言的。
測定峯度的指標是峯度係數(K)。峯度係數描述的是數據分佈曲線上峯的尖峭程度。
K < 0,與正態分佈相比該分佈一般扁平、瘦尾、肩部較胖;
K > 0,與正態分佈相比該分佈一般尖峯、肥尾、肩部較瘦。
5.3 數據偏度和峯度的作用
在實際數據分析過程中,偏度和峯度的作用主要表現在以下兩個方面:
一是將偏度和峯度結合起來用於檢查樣本的分佈是否屬於正態分佈,以便判斷總體的分佈。例如,樣本的偏度接近於0而峯度接近於3,可以推測總體分佈接近於正態分佈。
二是利用資料之間存在的偏度關係,對算術平均數、衆數、中位數進行推斷。一般情況下,不是正態分佈時,他們有如下關係:
右偏:
左偏:
根據經驗,一般在偏態適度時,不管是左偏還是右偏,三者的距離有近似的固定關係:中位數與算術平均數的距離約等於衆數與算術平均數距離的1/3 。因此,有如下公式:
,這樣,知道任意兩個,其它的都能推斷出來。
六、數據的展示——統計圖
6.1 條形圖與扇形圖
條形圖可以清楚的表明各種數量的多少,比較數據之間的差別。
扇形圖可以很清楚的表示出各部分數量同總數之間的關係。
條形圖和扇形圖在描述數據時,一次只能描述一個變量,通常用於較小的數據集分析。
6.2 折線圖
折線圖不僅可以表示數量的多少,而且還可以反映同一事物在不同的時間裏發展變化的情況;主要用於顯示時間數列的數據。
6.3 莖葉圖
將數的大小基本不變的位作爲莖,將變化較多的位作爲葉,列在莖的後面,這樣就可以清楚的看到每個主幹後面的數有多少、是多少。
比如有一組兩位數的數據,將十位作爲莖,個位作爲葉,相同莖共用,葉列在莖後面;
十位(莖) 個位(葉)
1 02446677789
2 124467779
4 22244444799999
6.4 箱線圖
箱線圖又稱盒須圖、盒式圖或箱形圖,用於顯示一組數據的分散情況。它需要使用到六個數據節點:上邊緣,上四分位數、中位數、下四分位數、下邊緣、異常值。
6.5 統計圖小結
面對一組數據選擇合適的統計圖來表明分析的目的,達到想要的效果是數據分析人員必備的能力。
圖表名稱 | 分析重點 | 適用數據 |
---|---|---|
條形圖 | 兩組數據的比較 | 定性數據 |
餅圖 | 成分數據的分析 | 定性數據 |
折線圖 | 時間數列數據或數據的趨勢分析 | 定量數據 |
莖葉圖 | 數據的集中趨勢分析 | 定量數據 |
箱線圖 | 極端數據的分析及數據分佈形態 | 定量數據 |
直方圖 | 數據分佈形態 | 定量數據 |
使用統計圖的注意事項:
1. 圖運用得當,表達效果更明顯;
2. 決定使用何種圖的不是數據、不是尺寸,而是你想要說明的主題;
3. 圖的使用在於精而不在於多;
4. 圖很直觀,但代替不了書寫和講述,它只能幫你快速傳達主題。
要求: 對各概念熟練掌握,各描述值的計算公式,圖表的手動繪製、工具繪製以及選取合適的度量值及圖來達到分析的目的。