《統計學》筆記:第4章 數據的概括性度量

集中趨勢 central tendency

集中趨勢是指一組數據向某一中心值考慮的程度,它反映了一組數據中心點的位置所在。

衆數 mode

衆數是一組數據中出現次數最多的變量值,用M0表示。衆數主要用於測量分類數據的集中趨勢,當然也適用於作爲順序數據以及數值型數據集中趨勢的測度值。一般情況下,只有在數據量較大的情況下,衆數纔有意義。【批:若數據量小,將數據處理爲分組數據後也可以使用衆數】

中位數 median

中位數是一組數據排序後處於中間位置上的變量值,用Me表示。中位數主要用於測量順序數據的集中趨勢,當然也適用於測度數值型數據的集中趨勢,但不適用於分類數據。【批:此處的分類數據並非分組數據,分組數據的中位數也是可以計算且有意義的】

四分位數 quartile

四分位數也稱四分位點,它是一組數據排序後處於25%和75%位置上的值。四分位數是通過3個點將全部數據等分爲4部分,其中每部分包含25%的數據。中間的四分位數就是中位數,因此通常所說的四分位數是指處在25%位置上的數值(稱爲下四分位數)和處在75%位置上的數值(稱爲上四分位數)。

均值 mean

平均數也稱均值,它是一組數據相加後後除以數據的個數得到的結果。均值是集中趨勢的最主要測量值,它主要適用於數值型數據【批:定距數據和定比數據】,而不適用於分類數據和順序數據。

簡單平均數 simple mean

根據未經分組數據計算的平均數稱爲簡單平均數。

加權平均數 weighted mean

根據分組數據計算的平均數稱爲加權平均數。

幾何平均數 geometric mean

幾何平均數是n個變量乘積的n次方根,用G表示。幾何平均數主要用於計算平均比率,當所掌握的變量值本身是比率的形式時,採用和平均法計算平均比率更爲合理。幾何平均數主要用於計算現象的平均增長率。

異衆比率 variation ratio

異衆比率是指非衆數組的頻數佔總頻數的比例,用Vr表示。異衆比率主要用於衡量衆數對一組數據的代表成都。異衆比率越大,說明非衆數組的頻數佔總頻數的比重越大,衆數的代表性越差;異衆比率越小,說明非衆數組的頻數佔總頻數的比重越小,衆數的代表性越好。

四分位差 quartile deviation / 內距 / 四分間距 inter-quartile range

四分位差是上四分位數與下四分位數之差,用Qd表示。四分位差反映了中間50%數據的離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。四分位差不受極值的影響。因爲中位數也處於數據的中間位置,因此,四分位差的大小在一定程度上也說明了中位數對一組數據的代表程度。

極差 / 全距 range

一組數據的最大值與最小值之差稱爲極差,也稱全距,用R表示。極差是描述數據離散程度的最簡單的測度值,但它容易受到極端值的影響。

平均差 mean deviation / 平均絕對利差 mean absolute deviation

平均差是各變量值與其平均數利差絕對值的平均數,用Md表示。平均差以平均數爲中心,反映了每個數據與平均數的平均差異程度,它能全面準確地反映一組數據的離散狀況。

方差 variance

方差是各變量值與其平均數離差平方的平均數。它在數據處理上是通過平方的辦法消去離差的正負號,然後再進行平均。

標準差 standard deviation

方差的平方根稱爲標準差。標準差是具有量綱的,它與變量值的計量單位相同,其實際意義要比方差清楚。

自由度 degree of freedom

在計算樣本方差時,是用樣本數據個數減1後除離差平方和,其中樣本數據個數減1即n-1稱爲自由度。

標準分數 standard score

變量值與其平均數的離差除以標準差後的值稱爲標準分數,也稱標準化值或z分數。標準分數給出了一組數據中各數值的相對位置。

離羣點 outlier

在平均數據±3個標準差的範圍內幾乎包含了全部數據,而在±3個標準差之外的數據,在統計上稱爲離羣點。【批:離羣點值遠離平均水平的極端大值和極端小值;也可以通過中位數±1.5個四分位差作爲邊界來度量】

離散係數 / 變異係數 coefficient of variation

離散係數也稱爲變異係數,它是一組數據的標準差與其相應的平均數之比。離散係數是測度數據離散程度的相對統計量,主要是用於比較不同樣本數據的離散程度。離散係數大,說明數據的離散程度也大;離散係數小,說明數據的離散程度也小。

偏態 skewness

偏態一詞是由皮爾遜於1895年首次提出的,它是對數據分佈對稱性的測度。【批:有些也將“偏態”稱爲“偏度”】

偏態係數 coefficient of skewness / SK

測度偏態的統計量是偏態係數。如果一組數據的分佈是對稱的,則偏態係數等於0;如果偏態係數明顯不等於0,則表明分佈是非對稱的;偏態係數越大,說明偏斜的程度越大。

峯態 kurtosis

峯態一詞是由皮爾遜於1905年首次提出的。它是對數據分佈平峯或尖峯程度的測量。

峯態係數 coefficient of kurtosis / K

測量峯態的統計量是峯態係數。峯態通常是與標準正態分佈相比較而言的。如果一組數據服從標準正態分佈,則峯態係數的值等於0;若峯態係數的值明顯不等於0,則表明分佈比正態分佈更平或更尖,通常稱爲平峯分佈或尖峯分佈。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章