【數據挖掘數學基礎】01描述統計(下)

目錄

四、離散程度

1、定義:反映各變量值遠離其中心值的程度,是數據分佈的一種重要特徵,從另一個側面說明了集中趨勢測度值的代表程度。

2、常見指標:

2.1極差:一組數據最大值與最小值之差;

2.2平均差:各變量與其均值離差絕對值的平均數;

2.3方差和標準差:方差是平均差的平方,標準差是方差的算數平方根。方差和標準差還分總體和樣本兩種。這兩個指標是計算數據離散程度最常用的指標。

2.4離散係數:又稱變異係數,是標準差與均值之比。

五、偏態與峯態

1、偏態:是值數據分佈偏斜程度,由K Pearson(卡·皮爾遜)提出。符號:SK。

2、峯態:是指數據分佈的扁平程度,也是有K Pearson提出。符號K表示。


四、離散程度

1、定義:反映各變量值遠離其中心值的程度,是數據分佈的一種重要特徵,從另一個側面說明了集中趨勢測度值的代表程度

2、常見指標:

2.1極差:一組數據最大值與最小值之差;

  • 符號:R
  • 公式:R=max(xi)-min(xi)
  • 理解:是測度離散程度的最簡單的方法,但極易受極端值的影響,且未考慮數據的分佈。

2.2平均差:各變量與其均值離差絕對值的平均數;

  • 符號:Md
  • 公式:未分組數據:

                   分組數據:(Mi :組中值)

  • 理解:平均差是一個很好能表現數據離散程度的值,Md越大數據越分散;但因爲公式中有絕對值,在數學公式運算中,一般絕對值都儘量要想辦法去掉,所以該公式的數學性質較差,一般在實際應用中很少用,那是否有能保留該公式的特徵又可以約減絕對值呢,平方就能解決這個問題,所以便有了方差。
  • 注意⚠️:標準差和平均差的公式是不一樣的,不要搞混淆了。

2.3方差和標準差:方差是平均差的平方,標準差是方差的算數平方根。方差和標準差還分總體和樣本兩種。這兩個指標是計算數據離散程度最常用的指標。

  • 符號:總體方差:σ2,總體標準差:σ

                  樣本方差:s2,樣本標準差:s 

  • 公式:

【思考】爲什麼樣本分母是n-1而不是n?

【解答】因爲樣本是總體的一部分,且樣本受\bar{X}(總體平均值)的約束,所以自由取值的個數變會少一個,所以n-1。記住,有\bar{X}出現就會有自由度的出現。

【Excel應用-例子】

(未分組的情況)

(分組情況:excel是沒有這個函數的,需要我們算出組中值,然後計算加權平均數,才能求出樣本方差和樣本標準差)

2.4離散係數:又稱變異係數,是標準差與均值之比。

  • 符號:V_{S}
  • 公式:V_{S}=S/\bar{X}
  • 例子:以下兩組數據對比離散程度

                   A組:1,2,3 

                  B 組:10,20,30

【解答】

用方差和標準差公式可以看出b組數據比a組數據離散,但如果我們把這兩組加上一個單位呢,a組是元,b組是角,那還是b組數據比a組數據離散嗎?因此這裏我們需要給他們再除以各自的均值。即:V_{A}=S_{A}/\bar{X_{A}}=1/2;V_{B}=S_{B}/\bar{X_{B}^{2}}=1/2;;可以看出a、b組數據的離散程度是一樣的。

【理解】:當數據單位一樣,適用場景一樣的話,可以直接用方差或標準差,而數據單位不一樣,適用場景也不同的話,應該用離散係數;離散係數是對數據相對離散程度的測度,消除了數據水平不同和數據計量單位不同對離散程度的影響;


我們瞭解這麼多描述數據離散程度的指標,在華潤萬家案例中,我們也可以提出,研究華潤萬家的消費者消費金額的差距,消費者層次是否穩定;


五、偏態與峯態

1、偏態:是值數據分佈偏斜程度,由K Pearson(卡·皮爾遜)提出。符號:SK。

公式:

(不用背,一般統計工具會有函數,excel中的SEKW()函數是對未分組的偏態係數計算)

理解:(下圖橫座標是變量值,縱座標是個數)

  • 當SK=0對稱分佈,衆數Mo=中位數Me=均值\bar{X}

  • 當SK<0左偏分佈,均值\bar{X}<中位數Me<衆數MO, 中位數和衆數不受極端值影響,均值受極小值影響較大,左偏極端值是最小值,因此拉低均值。

  • 當SK>0右偏分佈,衆數MO<中位數Me<均值\bar{X};均值受極大值影響較大,右偏極端值是最大值,因此拉高均值。

  • 當數據對稱分佈或接近對稱時,求平均指標一般用均值,而當分佈偏差程度較大時,一般用衆數或中位數;
  • 偏態程度:0<|SK|<0.5低度偏態分佈; 0.5<|SK|x≤1中等偏態分佈, |SK|>1高度偏態分佈

2、峯態:是指數據分佈的扁平程度,也是有K Pearson提出。符號K表示。

公式:(統計工具也有函數,excel中KURT()函數是未分組數據峯態係數統計)

理解:


描述統計就告一段落,附上一份描述統計案例。

【描述統計-案例分析過程】鏈接:https://pan.baidu.com/s/1GkWKh7cA_1lbT4ZHWXiwVA  密碼:kyjd

【描述統計案例-老師的模版】鏈接:https://pan.baidu.com/s/11Vz6Q6dP3K5iZQmel45yLA  密碼:yiyj

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章