目錄
- 分佈形態的度量
原點矩、中心矩、偏態係數、峯度係數 - 相對位置
分位數(百分位、十分位、四分位、四分位離差)、五數概括法、箱形圖 - 異常值
定義、產生的原因、檢測
分佈形態的度量
集中趨勢與離散程度是數據分佈的重要特徵,接下來近一步全面瞭解數據分佈的特點。
1.原點矩 & 中心矩
-
矩
又稱動差,源於物理學中的“力矩”。力矩用於測定轉動趨勢,受作用力的大小和力臂的長度影響。
統計學中的矩,是具有廣泛意義的隨機變量的數字特徵。 -
原點矩
- 一階原點矩
以標誌值0點爲原點(支點),以各點標誌值爲力臂的長度,以爲作用力的大小,構成統計的一階原點矩,即. - K階原點矩
將作用力臂長度分別採用各變量值的不同次方。
.
- 一階原點矩
-
中心矩
- K階中心矩
若將原點移到算術平均值處,以的各次方作爲力臂的長度,以爲力的大小,則構成統計的K階中心矩,即.
- K階中心矩
2.偏態係數
測量數據分佈的偏斜方向及程度,記作。
判斷數據分佈的偏度並不困難,因爲數據對稱、左偏和右偏可以決定衆數、中位數和平均數之間的關係,反之,可以利用衆數、中位數、平均數的關係來判定數據是對稱、左偏和右偏。
偏態係數主要用於衡量偏斜的程度。
- 計算
偏態係數SK的數值一般在[-3, 3]之間,SK=0時,分佈對稱;越接近兩邊,偏度越大。除以是爲了統一量綱。
3.峯度係數
衡量分佈集中趨勢高峯的形狀,計作。
通常以正態分佈爲標準,觀察曲線頂峯的尖平程度。比正態曲線高且瘦,則稱尖峯分佈。比正態曲線矮且平,則稱平峯分佈。
- 計算
一般用四階中心矩與標準差的四次方對比。
正態分佈,=0;尖峯分佈,>0;平峯分佈,<0。峯度係數,測定鄰近數值周圍變量值的集中與分散程度。
以四階中心矩爲測量標準,除以標準差的4次方,是爲了消除單位量綱的影響。
"-3"是爲了讓正態分佈的峯度爲0.
相對位置
指出某個測量值在整個數據集中的相對位置。
1.分位數
也叫分位點,指將一個數據集分爲幾個等份的數值點。
-
百分位數
把一個數據集排序後,等分爲100份。
常用於教育和保健領域。
記號是P,如P10表示第10百分位數,P20表示第20百分位數,P50是中位數。百分位數對應的位置就是百分位。- 計算
eg. 下列數據是10個學生在滿分20分考試中的成績,找出12分的百分位.
18,15,12,6,8,2,3,5,20,10
解:第一步:從小到大排序.
2,3,5,6,8,10,12,15,18,20
第二步:代入公式有
所以,成績爲12分的學生的百分位爲第65百分位,即65%的學生成績比他差,而有35%的學生成績要比他好. - 計算
-
十分位數
將一個數據集排序後,等分爲10份。
記號D,如D2表示第2個十分位數,D2=P20。十分位數對應的位置就是十分位。 -
四分位數 & 四分位極差
四分位數,即將數據等分爲4份。
記號Q。已知.
第1個四分位數,也稱下四分位數,第2個四分位數即中位數,第3個四分位數,也稱上四分位數。一般使用計算中位數的方法來計算四分位數。- 四分位極差
用來表示,.
四分位極差反映了中間50%數值的離散程度。數值越小,越集中;數值越大,越分散。
四分位極差不受極值的影響,在某種程度上彌補了極差的缺陷。
- 四分位極差
2.五數概括法 & 箱形圖
- 五數
最大、最小、中位數、下四分位數、上四分位數。 - 箱形圖
也稱盒形圖、盒須圖、盒式圖。
用作顯示一組數據的分散情況。
常用於品質管理。
- 注
1.一般情況,上鄰近值=,下鄰近值=。
2.異常值,或,用圓點或其它符號標記出。
3.最大、最小值不顯示出。
- 注
3.標準化
當計算了均值和標準差之後,可以對一組數據進行標準化處理,用來測度每個數據在數據集中的相對位置,並判定是否有異常值。
-
標準分數(z分數)
變量值與均值的離差除以標準差。
eg. 某班級有30人,數學成績:μ=70,σ=15.如有幾個學生成績爲:99,85,73,60,45,16.則z值爲:1.93,1.00,0.20,-0.67,-1.61,-3.60.
標準分數給出了數值在數據集中的相對位置。如99對應1.93,其值高於算術平均值1.93倍標準差。
一般情況下,高於3倍標準差的值是非常少的,在算術平均值加減3倍標準差的範圍內包含了99.7%的數據。超出範圍之外的數據統計上稱異常值。注:標準化後,數據就沒有量綱了,但不改變其相對位置。面對不同量綱的變量處理時,常需要標準化處理。
異常值
一般情況下,將一組數據中偏離均值兩倍標準差的值稱爲異常值;偏離均值3倍標準差的值稱爲高度異常值。
產生異常值的原因:
- 記錄出錯,修正;
- 數據不屬於數據集,刪除;
- 正常發生的事件引起(如雙十一),保留。
2.異常值檢測
常用的兩種方法:
- 如是正態分佈,由於正態分佈數據的99.7%的數據落在正負3個標準差範圍內,因此可用z分數,判定異常值:z小於-3,或大於3。如非正態分佈,則z分數不太適合。
- 可用箱形圖,判定異常值:大於,或小於。
- 附1.補充閱讀百科原點矩
原點矩顧名思義,是隨機變量到原點的距離(這裏假設原點爲零點)。中心矩則類似於方差,先要得出樣本的期望即均值,然後計算出隨機變量到樣本均值的一種距離。
二階中心矩,也叫作方差,它告訴我們一個隨機變量在它均值附近波動的大小,方差越大,波動性越大。方差也相當於機械運動中以重心爲轉軸的轉動慣量。
三階中心矩告訴我們一個隨機密度函數向左或向右偏斜的程度。
在均值不爲零的情況下,原點矩只有純數學意義。