數據自習室第一週·數據的描述性統計0715-0721

學習筆記第一週

數據的描述性統計0715-0721

 

目錄

 

一、數據的集中趨勢 

1.衆數:

一組數據中,出現次數最多的那個數,用大寫字母 M 表示。 一組數據可以有多個衆數,也可以沒有衆數。 用衆數代表一組數據,可靠性較差,不過衆數不受極端數據的影響,並且求法簡便。在一組數據中,如果個別數據有很大的變動,選擇中位數表示這組數據的“集中趨勢”就比較適合。 衆數的三種求解方法: 觀察法:直接找出次數最多的那組數 ;金氏插入發法;皮爾遜經驗法 

2.中位數:

按順序排序,處於中間位置的數。一組數據中,從小到大排序,或者從大到小排序,正中間那個數就是中位 數。如果是這組數據是奇數個數,則爲中間那個數,如果是偶數個數,則爲中間那兩個數的平均數。 在概率密度函數中,中位數就是把整個圖分成兩邊面積相等的地方。


3.平均數:

一般指的是 算術平均數。表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以 這組數據的個數。易受到極端數據的影響。

算數平均數:

幾何平均數 :

加權平均數:

4.分位數:

亦稱分位點,是指將一個隨機變量的概率分佈範圍分爲幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。 四分位數是統計學中分位數的一種,即把所有數值由小到大 排列並分成四等份,處於三個分割點位置的數值就是四分位數。 1.第一四分位數(Q1),又稱“較小四分位數”,等於該樣本中所有數值 由小到大排列後第 25%的數字; 2.第二四分位數(Q2),又稱“中位數”,等於該樣本中所有數值由小到 大排列後第 50%的數字; 3.第三四分位數(Q3),又稱“較大四分位數”,等於該樣本中所有數值 由小到大排列後第 75%的數字。 第三四分位數與第一四分位數的差距又稱四分位距。 百分位數:統計學術語。如果將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱爲這一百分位的百分位數。

5.極差:

最大值與最小值之間的差距。又稱範圍誤差或全距(Range),以R表示,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距,即最大值減最小值後所得之數據。極差=最大值 - 最小值 即:R=xmax-xmin

 

二、數據的離中趨勢 

1.數值型數據
方差:度量隨機變量和其數學期望(即均值)之間的偏離程度。
標準差:所有數減去其平均值的平方和,所得結果除以該組數之個數(或個數減一,即變異數),再把所得值開根號,所得之數就是這組數據的標準差。
極差:最大值與最小值之間的差距。
平均差:各個變量值同平均數的離差絕對值的算術平均數。

2.順序數據
四分位差:上四分位數(Q3,即位於75%)與下四分位數(Q1,即位於25%)的差。Q = Q3 - Q1

3.分類數據
異衆比率:是離中趨勢的指標之一。異衆比率指的是總體中非衆數次數與總體全部次數之比。換句話說,異衆比率指非衆數組的頻數佔總頻數的比例。
 

三、相對離散程度 

離散係數

又稱變異係數,簡單的理解就是用來衡量數據的離散程度。離散係數大,說明數據的離散程度也大;離散係數小,說明數據的離散程度也小。當進行兩個或多個資料離散程度的比較時,如果度量單位與平均數相同,可以直接利用標準差來比較。如果單位和(或)平均數不同時,比較其離散程度就不能採用標準差,而需採用標準差與平均數的比值(相對值)來比較。

離散係數=標準差/平均數

 

四、分佈的形狀 

1.偏態係數

以平均值與中位數之差對標準差之比率來衡量偏斜的程度,用 SK 表示偏斜係數:偏態係數小於 0,因爲平均數在衆數之左,是一種左偏的分佈,又稱爲負偏。偏態係數大於 0,因爲均值在衆數之右,是一種右偏的分佈,又稱爲正偏。偏態係數是根據衆數、中位數與均值各自的性質,通過比較衆數或中位數與均值來衡量偏斜度的,即偏態係數是對分佈偏斜方向和程度的刻畫。衆數、中位數、平均數三個數的差距越大,那麼偏態係數就越大。那我們在做挖掘的時候,發現這三個數差的很遠,就應該知道數據的偏態係數特別大。

2.峯態係數

峯度(peakedness;kurtosis)又稱峯態係數。簡單來講,它就是對數據分佈平峯或尖峯程度的測度。測度峯態的統計量則是峯態係數。

1、峯態係數就是概率分佈函數中,與衆數概率的高低有直接關係,衆數概率越高,峯態係數越大。

2、正態分佈的峯態係數是 3,常常計算出來的峯態係數會跟 3 作比較,如果小於 3 則具有不足的峯度,如果大於 3 則具有過度的峯度。反正理解爲大於 3 比正態分佈的更尖。

3、在相同的標準差下,峯度係數越大,分佈就有更多的極端值。

 

 

結語:感謝木東居士提供此次學習的平臺。讓我們有此次共同學習討論的機會。   wx公衆號:木東居士  

2019/07/21

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章