目錄
1、定義:反映各變量值遠離其中心值的程度,是數據分佈的一種重要特徵,從另一個側面說明了集中趨勢測度值的代表程度。
2.3方差和標準差:方差是平均差的平方,標準差是方差的算數平方根。方差和標準差還分總體和樣本兩種。這兩個指標是計算數據離散程度最常用的指標。
1、偏態:是值數據分佈偏斜程度,由K Pearson(卡·皮爾遜)提出。符號:SK。
2、峯態:是指數據分佈的扁平程度,也是有K Pearson提出。符號K表示。
四、離散程度
1、定義:反映各變量值遠離其中心值的程度,是數據分佈的一種重要特徵,從另一個側面說明了集中趨勢測度值的代表程度。
2、常見指標:
2.1極差:一組數據最大值與最小值之差;
- 符號:R
- 公式:R=max(xi)-min(xi)
- 理解:是測度離散程度的最簡單的方法,但極易受極端值的影響,且未考慮數據的分佈。
2.2平均差:各變量與其均值離差絕對值的平均數;
- 符號:Md
- 公式:未分組數據:
分組數據:(Mi :組中值)
- 理解:平均差是一個很好能表現數據離散程度的值,Md越大數據越分散;但因爲公式中有絕對值,在數學公式運算中,一般絕對值都儘量要想辦法去掉,所以該公式的數學性質較差,一般在實際應用中很少用,那是否有能保留該公式的特徵又可以約減絕對值呢,平方就能解決這個問題,所以便有了方差。
- 注意⚠️:標準差和平均差的公式是不一樣的,不要搞混淆了。
2.3方差和標準差:方差是平均差的平方,標準差是方差的算數平方根。方差和標準差還分總體和樣本兩種。這兩個指標是計算數據離散程度最常用的指標。
- 符號:總體方差:σ2,總體標準差:σ
樣本方差:s2,樣本標準差:s
- 公式:
【思考】爲什麼樣本分母是n-1而不是n?
【解答】因爲樣本是總體的一部分,且樣本受(總體平均值)的約束,所以自由取值的個數變會少一個,所以n-1。記住,有出現就會有自由度的出現。
【Excel應用-例子】
(未分組的情況)
(分組情況:excel是沒有這個函數的,需要我們算出組中值,然後計算加權平均數,才能求出樣本方差和樣本標準差)
2.4離散係數:又稱變異係數,是標準差與均值之比。
- 符號:
- 公式:=S/
- 例子:以下兩組數據對比離散程度
A組:1,2,3
B 組:10,20,30
【解答】
用方差和標準差公式可以看出b組數據比a組數據離散,但如果我們把這兩組加上一個單位呢,a組是元,b組是角,那還是b組數據比a組數據離散嗎?因此這裏我們需要給他們再除以各自的均值。即:;可以看出a、b組數據的離散程度是一樣的。
【理解】:當數據單位一樣,適用場景一樣的話,可以直接用方差或標準差,而數據單位不一樣,適用場景也不同的話,應該用離散係數;離散係數是對數據相對離散程度的測度,消除了數據水平不同和數據計量單位不同對離散程度的影響;
我們瞭解這麼多描述數據離散程度的指標,在華潤萬家案例中,我們也可以提出,研究華潤萬家的消費者消費金額的差距,消費者層次是否穩定;
五、偏態與峯態
1、偏態:是值數據分佈偏斜程度,由K Pearson(卡·皮爾遜)提出。符號:SK。
公式:
(不用背,一般統計工具會有函數,excel中的SEKW()函數是對未分組的偏態係數計算)
理解:(下圖橫座標是變量值,縱座標是個數)
- 當SK=0對稱分佈,衆數Mo=中位數Me=均值;
- 當SK<0左偏分佈,均值<中位數Me<衆數MO, 中位數和衆數不受極端值影響,均值受極小值影響較大,左偏極端值是最小值,因此拉低均值。
- 當SK>0右偏分佈,衆數MO<中位數Me<均值;均值受極大值影響較大,右偏極端值是最大值,因此拉高均值。
- 當數據對稱分佈或接近對稱時,求平均指標一般用均值,而當分佈偏差程度較大時,一般用衆數或中位數;
- 偏態程度:0<|SK|<0.5低度偏態分佈; 0.5<|SK|x≤1中等偏態分佈, |SK|>1高度偏態分佈;
2、峯態:是指數據分佈的扁平程度,也是有K Pearson提出。符號K表示。
公式:(統計工具也有函數,excel中KURT()函數是未分組數據峯態係數統計)
理解:
描述統計就告一段落,附上一份描述統計案例。
【描述統計-案例分析過程】鏈接:https://pan.baidu.com/s/1GkWKh7cA_1lbT4ZHWXiwVA 密碼:kyjd
【描述統計案例-老師的模版】鏈接:https://pan.baidu.com/s/11Vz6Q6dP3K5iZQmel45yLA 密碼:yiyj