緣由:
學習筆記的起始緣由:遇到了一個活躍的學習小組,學習內容又是一直想學而且想用好的領域。
學習內容大綱如下:
第一週學習內容——描述性統計
知識點如下:
- 數據集中趨勢:
- 中位數、均值、衆數、極差、分位數
- 算數平均數、加權平均數、幾何平均數
- 數據的離中趨勢:
- 數值型數據:方差、標準差、極差、平均差
- 分類型數據:異衆比率
- 順序型數據:四分位差
- 相對離散程度:離散係數
- 分佈的形狀:偏態係數、峯態係數
個人學習總結
part1 概念體系
描述性統計可以進行四個維度的分析:分佈分析、對比分析、構成分析、相關性分析。
part2 概念定義和主要用途
2.1分佈分析:
-
算數平均數:
定義:數據簡單加和除以數據個數
優點:考慮了每一個數據的作用
缺點:數據量小時,容易受極端值影響
應用場景: 所有權重相等的,彙總結果爲加和形式的,求平均水平的場景 -
加權平均數:
定義:給每個數據項特定的權重,再求均值
優點:可以結合先驗的經驗/相對的比重,人工設定數據項的影響力
缺點:先驗經驗可能不準確
應用場景: 各種指數的計算(價格指數、上證指數等) -
幾何平均數:
定義:所有數據相乘之後再開方
優點:相比算數平均,受極端值影響較小
缺點:若變量有負值,則幾何平均就會成爲複數或者虛數;若數值中有0,則算數平均爲0
應用場景: 當彙總結果爲乘積的形式時 -
中位數:
定義:按照大小排序,位於中間的一個數/兩個數的均值
優點:不易受極端值的影響
缺點:當數據比較離散時,則中位數意義不大;當數據分佈偏態時,中位數代表性會受影響
應用場景: 未知~~ -
衆數:
定義:出現次數最多的數
優點:不易受數據中極端數值的影響
缺點:當數據呈多峯分佈時,沒有代表性
應用場景: -
四分位數:
定義:把數據集排序後分成四等分,位於分位線上的數
優點:可以識別出數據大致分佈情況(箱線圖)
缺點:無法瞭解到比25%更小的顆粒度數據分佈情況
應用場景: 箱線圖(五數概括法) -
極差:
定義:全距,最大值減去最小值,總體標準差的有偏估計
優點:計算簡單;瞭解數據分大致分佈
缺點:顆粒度比四分數大;受極端值影響
應用場景: 比賽成績,去掉最高分和最低分 -
方差:
定義:每個數與均值之差的平方和,反映總體離散程度,自由度爲n-1
優點:可以衡量樣本離均值離散程度
缺點:方差的度量和樣本均值的度量不一致,無法直接比較
應用場景: -
標準差:
定義:每個數與均值之差的平方和的開方,反映總體離散程度,自由度爲n-1
優點:可以直觀的瞭解到偏差的程度,和均值是同一量綱
缺點:不能對比不同項目/同一項目不同樣本,因爲量綱不一樣(1單位的方差意義不同)
應用場景: -
異衆比率:
定義:非衆數頻數除以總數,聚焦在衆數的代表程度
優點:可算分類數據
缺點:離散程度不可知
應用場景: -
四分位差:
定義:四分位距,也叫內距,IRQ = Q3-Q1(Inter-quartile range)
優點:不受兩端各25%數值的影響;可衡量中間50%數值的差異程度;聚焦的是中位數代表性
缺點:不能反映所有數值的離散程度
應用場景: 異常值檢測[Q1-1.5* IQR,Q3+1.5* IQR] -
離散係數:
定義:變異係數,標準差的歸一化操作。C.V = σ/X (X代表均值)
優點:無量綱,可以直接比較不同項目,係數越大的代表分佈越離散
缺點:均值接近0時,標準差的微小變動會造成係數較大波動,從而造成精確度不足;變異係數無法發展出類似均值的置信區間的工具。(還沒弄懂)
應用場景: 更新理論、排隊理論、可靠性理論 -
偏態係數:
定義:偏差係數,sk = (X-M)/σ X是均值,M是中位數,σ是方差;①左偏:均值小於中位數(因爲數據存在極小值,將均值帶小了。即極小值附近有長尾,峯在右側),偏態係數小於0;②右偏:均值大於中位數(因爲數據存在極大值,將均值帶大了。即極大值附近有長尾,峯在左側),偏態係數大於0;③對稱:均值等於中位數,等於衆數。絕對值越大,偏斜程度越大。
優點:可以衡量數據的偏斜程度
缺點:非單峯分佈不能使用?(不十分確定)
應用場景:
2.2對比分析:
- 同比:
定義:同比上一個週期的同一時期
優點:可有效比較有週期性規律的數據變化
缺點:
應用場景: - 環比:
定義:環比上一個時期
優點:方便比較相鄰兩期數據的變化;多期環比可做長期分析
缺點:
應用場景: - 定基比:
定義:相比固定時期
優點:可公平比較多期數據;把握現象發展的長期趨勢和宏觀狀態
缺點:
應用場景: - 硬剛比:
定義:橫向比較,直接相除:A/B
優點:可方便觀察相對關係
缺點:未考察時間維度和其它因素
應用場景:
2.3相關性分析:
- 皮爾森係數:
定義:ρx,y = cov(X,Y)/(σ1* σ2)
優點:
缺點:
應用場景:R2 線性擬合程度 - 斯皮爾曼係數:
定義:ρ = 1 - (6∑di2)/(n3* n) d爲兩列對等變量等級差;n爲等級個數
優點:可計算非數值型數據的相關性,無需總體正態假設
缺點:
應用場景: - 最大信息係數:
定義:待定,還不知道是啥,也不知道能不能用,百度百科未收錄
優點:
缺點:
應用場景:
part3 代碼實現
對應公式:
可視化圖表:
分佈、對比、構成、相關(聯繫)
最後感謝學習小組組織者——木東居士:
另外可見:
統計學原理之描述性統計——開篇