【數據挖掘數學基礎】01描述統計(中)

目錄

三、平均指標

1、定義:一組數據向其中心值靠攏的趨勢。

2、衆數和分位數:

3、均值(平均數)

3.1算術平均數:

3.2調和平均數:

3.3幾何平均數:

3.4冪平均數:


三、平均指標

1、定義:一組數據向其中心值靠攏的趨勢

2、衆數和分位數:

  • 衆數:屬於分類數據的指標,出現次數最多的值。符號:Mo;衆數的缺點:不唯一性,即有時候太多,有時候沒有;優點:不受極端值影響。
  • 分位數:符號Me。根據數據位置進行劃分, 可以分二等分、三等分、四等分……,而分二等分的稱二分位數(也叫中位數),四等分叫四分位數、十分位數、百分位數……

計算方法:設數據個數爲n則:

中位數位置=(n+1)/2

多分位數簡便方法:上四分位數Q_{L}的位置:n/4

                                  下四分位數Q_{U}的位置:3n/4

(注意:簡便方法會出現不等分的情況。)

例子:9個家庭的人均月收入數據,取四分位數

原始數據:1500,750,780,1080,850,960,2000,1250,1630

排序: 750,780,850,960,1080,1250,1500,1630,2000

位置:   1      2     3      4      5       6       7       8       9

由簡便公式得:Q_{L}=9/4=2.25

                           Q_{U}=3*9/4=6.75

3、均值(平均數)

定義:屬於數值型數據的指標,平均數是所有數據參與的同級運算,平均數是有很多種,有算術平均數(簡單平均數和加權平均數是屬於一種,別的平均數也是有分加權和簡單,只是數值是否分組,分組用加權),調和平均和幾何平均,他們都統稱冪平均數,後面將會解釋爲什麼統稱冪平均數;

3.1算術平均數:

舉個例子:

算術平均數的特點:

  • 易受極端值的影響,且受max影響比min影響要大
  • 各變量值與均值的離差之和等於0,說明算術平均數在數組中是在比較重心的位置。

3.2調和平均數:

例子:完成一項工程,甲獨立完成需要3天,乙獨立完成需要4天,已知丙以甲和乙的平均工作效率來完成,問丙需要多少天完成?

【解答】甲平均每天完成量:1/3

        乙平均每天完成量:1/4

        甲和乙平均每天完成量:(1/3+1/4)/2

        丙完成天數:1/(1/3+1/4)/2

理解調和平均數:

調和平均數即將每個數值變量轉成倒數,求和後除以n(樣本數)再轉成倒數。

調和平均數特點:

  • 易受極端值影響,受min影響比max影響要大;
  • 同一數組調和平均數總比算術平均數小;
  • 常用於效率數據的研究,如項目完成平均數,人均效率;
  • 變量不能爲0;

3.3幾何平均數:

例子:銀行推出一款理財產品,第一年存入理財金,一年後將會返回3倍金額,如果返回的3倍金額不取出,繼續存在銀行,第二年將會以4倍金額返還。那麼這款產品這兩年是平均以幾倍金額返還。

【解答】假定存入1元,一年後得到3元,兩年後得到12元。第一年是3倍,第二年是4倍,設平均值G倍得:

      1*3*4=1*G*G

        3*4=G^2

         G =(3*4)^0.5=3.4641

從例子可以推到出求這類問題應該是將各個數值相乘再開n次方根號。

幾何平均數特點:

  • 易受極端值影響,受min和max影響差不多,且比算術平均數和調和平均數要小;
  • 適用於對比率數據的平均,主要用於計算平均增長率;
  • 數組中有0數值無法計算;

3.4冪平均數:

  • 冪平均是所有平均數的統稱,他們都可以由冪平均數換化,k是實數,還可以等於2、3等,那麼平均數類型是很多的;
  • 從冪平均公式可以看出,k越大,所得平均值就會越到,所以算術平均值>幾何平均值>調和平均值,又側面可以解釋,算術平均值受max極端值影響大,調和平均值受min極端值影響大;

這章中瞭解到那麼多可以描述集中趨勢的指標,是不是也可以運用到華潤萬家的案例中去呢,比如:50多萬條消費記錄中,哪些產品更好賣,按時間看銷售額佔比(分爲數),生鮮產品平均幾天售罄(調和平均數),今年銷售額平均增長率是多少(幾何平均),平均每個月銷售額(算數平均)等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章