【數據挖掘數學基礎】01描述統計（下）

原創

Miki_onlyone

2020-07-07 09:10

四、離散程度

1、定義：反映各變量值遠離其中心值的程度，是數據分佈的一種重要特徵，從另一個側面說明了集中趨勢測度值的代表程度。

2、常見指標：

2.1極差：一組數據最大值與最小值之差；

2.2平均差：各變量與其均值離差絕對值的平均數；

2.3方差和標準差：方差是平均差的平方，標準差是方差的算數平方根。方差和標準差還分總體和樣本兩種。這兩個指標是計算數據離散程度最常用的指標。

2.4離散係數：又稱變異係數，是標準差與均值之比。

五、偏態與峯態

1、偏態：是值數據分佈偏斜程度，由K Pearson（卡·皮爾遜）提出。符號：SK。

2、峯態：是指數據分佈的扁平程度，也是有K Pearson提出。符號K表示。

四、離散程度

1、定義：反映各變量值遠離其中心值的程度，是數據分佈的一種重要特徵，從另一個側面說明了集中趨勢測度值的代表程度。

2、常見指標：

2.1極差：一組數據最大值與最小值之差；

符號：R
公式：R=max(xi)-min(xi)
理解：是測度離散程度的最簡單的方法，但極易受極端值的影響，且未考慮數據的分佈。

2.2平均差：各變量與其均值離差絕對值的平均數；

符號：Md
公式：未分組數據：

分組數據：（Mi :組中值）

理解：平均差是一個很好能表現數據離散程度的值，Md越大數據越分散；但因爲公式中有絕對值，在數學公式運算中，一般絕對值都儘量要想辦法去掉，所以該公式的數學性質較差，一般在實際應用中很少用，那是否有能保留該公式的特徵又可以約減絕對值呢，平方就能解決這個問題，所以便有了方差。
注意⚠️：標準差和平均差的公式是不一樣的，不要搞混淆了。

2.3方差和標準差：方差是平均差的平方，標準差是方差的算數平方根。方差和標準差還分總體和樣本兩種。這兩個指標是計算數據離散程度最常用的指標。

符號：總體方差：σ2，總體標準差：σ

樣本方差：s2，樣本標準差：s

公式：

【思考】爲什麼樣本分母是n-1而不是n？

【解答】因爲樣本是總體的一部分，且樣本受 $\bar{X}$ （總體平均值）的約束，所以自由取值的個數變會少一個，所以n-1。記住，有 $\bar{X}$ 出現就會有自由度的出現。

【Excel應用-例子】

（未分組的情況）

（分組情況：excel是沒有這個函數的，需要我們算出組中值，然後計算加權平均數，才能求出樣本方差和樣本標準差）

2.4離散係數：又稱變異係數，是標準差與均值之比。

符號： $V_{S}$
公式： $V_{S}$ =S/ $\bar{X}$
例子：以下兩組數據對比離散程度

A組：1，2，3

B 組：10，20，30

【解答】

用方差和標準差公式可以看出b組數據比a組數據離散，但如果我們把這兩組加上一個單位呢，a組是元，b組是角，那還是b組數據比a組數據離散嗎？因此這裏我們需要給他們再除以各自的均值。即： $V_{A}=S_{A}/\bar{X_{A}}=1/2;V_{B}=S_{B}/\bar{X_{B}^{2}}=1/2;$ ；可以看出a、b組數據的離散程度是一樣的。

【理解】：當數據單位一樣，適用場景一樣的話，可以直接用方差或標準差，而數據單位不一樣，適用場景也不同的話，應該用離散係數；離散係數是對數據相對離散程度的測度，消除了數據水平不同和數據計量單位不同對離散程度的影響；

我們瞭解這麼多描述數據離散程度的指標，在華潤萬家案例中，我們也可以提出，研究華潤萬家的消費者消費金額的差距，消費者層次是否穩定；

五、偏態與峯態

1、偏態：是值數據分佈偏斜程度，由K Pearson（卡·皮爾遜）提出。符號：SK。

公式：

（不用背，一般統計工具會有函數，excel中的SEKW()函數是對未分組的偏態係數計算）

理解：（下圖橫座標是變量值，縱座標是個數）

當SK=0對稱分佈，衆數Mo=中位數Me=均值 $\bar{X}$ ；

當SK<0左偏分佈，均值 $\bar{X}$ <中位數Me<衆數MO, 中位數和衆數不受極端值影響，均值受極小值影響較大，左偏極端值是最小值，因此拉低均值。

當SK>0右偏分佈，衆數MO<中位數Me<均值 $\bar{X}$ ;均值受極大值影響較大，右偏極端值是最大值，因此拉高均值。

當數據對稱分佈或接近對稱時，求平均指標一般用均值，而當分佈偏差程度較大時，一般用衆數或中位數；
偏態程度：0<|SK|<0.5低度偏態分佈； 0.5<|SK|x≤1中等偏態分佈， |SK|>1高度偏態分佈；

2、峯態：是指數據分佈的扁平程度，也是有K Pearson提出。符號K表示。

公式：（統計工具也有函數，excel中KURT()函數是未分組數據峯態係數統計）

理解：

描述統計就告一段落，附上一份描述統計案例。

【描述統計-案例分析過程】鏈接:https://pan.baidu.com/s/1GkWKh7cA_1lbT4ZHWXiwVA 密碼:kyjd

【描述統計案例-老師的模版】鏈接:https://pan.baidu.com/s/11Vz6Q6dP3K5iZQmel45yLA 密碼:yiyj

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【數據挖掘數學基礎】01描述統計（下）

四、離散程度

1、定義：反映各變量值遠離其中心值的程度，是數據分佈的一種重要特徵，從另一個側面說明了集中趨勢測度值的代表程度。

2、常見指標：

2.1極差：一組數據最大值與最小值之差；

2.2平均差：各變量與其均值離差絕對值的平均數；

2.3方差和標準差：方差是平均差的平方，標準差是方差的算數平方根。方差和標準差還分總體和樣本兩種。這兩個指標是計算數據離散程度最常用的指標。

2.4離散係數：又稱變異係數，是標準差與均值之比。

五、偏態與峯態

1、偏態：是值數據分佈偏斜程度，由K Pearson（卡·皮爾遜）提出。符號：SK。

2、峯態：是指數據分佈的扁平程度，也是有K Pearson提出。符號K表示。

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

【數據挖掘數學基礎】01描述統計（下）

【數據挖掘數學基礎】01描述統計（上）

【數據挖掘數學基礎】01描述統計（中）

【數據挖掘數學基礎】00前言

【MySQL基礎】02數據定義語言DDL

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結