[統計學筆記] 統計學中的相關關係和三大相關係數

統計學中的相關關係和三大相關係數

相關關係是一種非確定性的關係,相關係數是研究變量之間線性相關程度的量。

由於研究對象的不同,相關係數有如下幾種定義方式。

簡單相關係數:又叫相關係數或線性相關係數,一般用字母r 表示,用來度量兩個變量間的線性關係。

復相關係數:又叫多重相關係數。複相關是指因變量與多個自變量之間的相關關係。例如,某種商品的季節性需求量與其價格水平、職工收入水平等現象之間呈現複相關關係。

典型相關係數:是先對原來各組變量進行主成分分析,得到新的線性關係的綜合指標,再通過綜合指標之間的線性相關係數來研究原各組變量間相關關係。

相關分析就是對兩個變量之間線性關係的描述與度量,它要解決的問題包括:

變量之間是否存在關係?
如果存在關係,他們之間是什麼樣的關係?
變量之間的關係強度如何?
樣本所反映的變量之間的關係能否代表總體變量之間的關係?
爲了解決這些問題,在進行相關分析時,對總體主要有兩個假定:

第一:兩個變量是線性相關的;

第二:兩個變量都是隨機變量;

確定相關關係的存在,相關關係呈現的形態和方向,相關關係的密切程度。其主要方法是繪製相關圖表和計算相關係數。
1)相關表
編制相關表前首先要通過實際調查取得一系列成對的標誌值資料作爲相關分析的原始數據。
相關表的分類:簡單相關表和分組相關表。單變量分組相關表:自變量分組並計算次數,而對應的因變量不分組,只計算其平均值;該表特點:使冗長的資料簡化,能夠更清晰地反映出兩變量之間相關關係。雙變量分組相關表:自變量和因變量都進行分組而製成的相關表,這種表形似棋盤,故又稱棋盤式相關表。
2)相關圖
利用直角座標系第一象限,把自變量置於橫軸上,因變量置於縱軸上,而將兩變量相對應的變量值用座標點形式描繪出來,用以表明相關點分佈狀況的圖形。相關圖被形象地稱爲相關散點圖。因素標誌分了組,結果標誌表現爲組平均數,所繪製的相關圖就是一條折線,這種折線又叫相關曲線。
3)相關係數
1、相關係數是按積差方法計算,同樣以兩變量與各自平均值的離差爲基礎,通過兩個離差相乘來反映兩變量之間相關程度;着重研究線性的單相關係數。
2、確定相關關係的數學表達式。
3、確定因變量估計值誤差的程度。

在進行相關分析時,首先需要繪製散點圖來判斷變量之間的關係形態,如果是線性關係,則可以利用相關係數來測度兩個變量之間的關係強度,然後對相關係數進行顯著性檢驗,以判斷樣本所反映的關係是否代表兩個變量總體上的關係。

根據散點圖,當自變量取某一值時,因變量對應爲一概率分佈,如果對於所有的自變量取值的概率分佈都相同,則說明因變量和自變量是沒有相關關係的。反之,如果,自變量的取值不同,因變量的分佈也不同,則說明兩者是存在相關關係的。
 

通過散點圖可以判斷兩個變量之間有無相關關係,並對變量之間的關係形態作出大致的描述,但散點圖不能準確反映變量之間的關係強度。因此,爲準確度量兩個變量之間的關係強度,需要計算相關係數。

相關係數(correlation coefficient)是根據樣本數據計算的度量兩個變量之間線性關係強度的統計量。

若相關係數是根據總體全部數據計算的,稱爲總體相關係數,記爲:\rho

若是根據樣本數據計算的,則稱爲樣本相關係數,記爲:r

樣本相關係數的計算公式爲:

r = \frac{n\sum xy - \sum x\sum y}{\sqrt{n\sum x^{2}-\left ( \sum x \right )^{2}}\times \sqrt{n\sum y^{2}-\left ( \sum y \right )^{2}}}

按上述公式計算的相關係數也稱爲線性相關係數(Linear Correlation Coefficient),或稱爲 Pearson 相關係數(Pearson's Correlation Coefficient)

一般情況下,總體相關係數  是未知的,通常將樣本相關係數  作爲  的近似估計值。

但是由於  是根據樣本數據計算出來的,因此會受到抽樣波動的影響。由於抽取的樣本不同, 的取值也就不同,因此  是一個隨機變量。能夠根據樣本相關係數說明總體的相關程度呢?這就需要考慮樣本相關係數的可靠性,也就是進行顯著性檢驗。

相關分析的目的:測度變量之間的關係強度。

使用的工具:相關係數


Pearson相關係數

Pearson相關係數(Pearson CorrelationCoefficient)是用來衡量兩個數據集合是否在一條線上面,它用來衡量定距變量間的線性關係。

如衡量國民收入和居民儲蓄存款、身高和體重、高中成績和高考成績等變量間的線性相關關係。當兩個變量都是正態連續變量,而且兩者之間呈線性關係時,表現這兩個變量之間相關程度用積差相關係數,主要有Pearson簡單相關係數。

適用條件:

  1. 樣本容量大於等於30,這樣才能保證計算的數據具有代表性,計算出的積差相關係數可以有效說明兩個變量的相關關係。
  2. 兩個變量的所屬總體都呈正態分佈,至少是接近正態的單峯分佈。
  3. 兩個變量都是由測量所得的連續性數據。
  4. 兩個變量間的相關是線性相關。
  5. 排除共變因素的影響。
  6. 計算連續變量或是等間距測度的變量間的相關分析。

Spearman相關係數

在統計學中, 以查爾斯·斯皮爾曼命名的斯皮爾曼等級相關係數,即spearman相關係數。經常用希臘字母ρ表示。 它是衡量兩個變量的依賴性的 非參數 指標。 它利用單調方程評價兩個統計變量的相關性。 如果數據中沒有重複值, 並且當兩個變量完全單調相關時,斯皮爾曼相關係數則爲+1或−1。

適用條件:

  1. 只有兩個變量,且都爲順序變量(等級變量),或一列數據是順序變量數據,另一列數據是連續變量數據。
  2. 適用於描述稱名數據和順序數據的相關情況。
  3. 兩個連續變量觀測的數據,至少有一列數據是由非測量方法粗略評估得到的。如使用作品分析法,評價者只能在一定標準基礎上,依靠自己的經驗進行粗略評估。
  4. 從Spearman等級相關的使用條件可以看出,其不受樣本大小、變量分佈形態,數據是否具有連續性的條件限制,所以當數據不滿足Pearson積差相關的使用條件時,可以使用Spearman等級相關。但Spearman等級相關需將連續性數據轉換爲順序數據,會遺漏數據原有信息,沒有積差相關的準確度高。所以,當數據符合積差相關的使用條件時,不要使用等級相關進行計算。

斯皮爾曼相關係數被定義成等級變量之間的皮爾遜相關係數。對於樣本容量爲n的樣本,n個原始數據被轉換成等級數據,相關係數ρ爲:

 

實際應用中,變量間的連結是無關緊要的,於是可以通過簡單的步驟計算ρ。被觀測的兩個變量的等級的差值,則ρ爲

斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱爲“等級差數法”。

斯皮爾曼等級相關對數據條件的要求沒有積差相關係數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分佈形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究。

斯皮爾曼等級相關係數是反映兩組變量之間聯繫的密切程度,它和相關係數 r 一樣,取值在-1到+1之間,所不同的是它是建立在等級的基礎上計算的。

現結合一個例子來加以說明,某工廠對工人的業務進行了一次考試,欲研究考試成績與每月產量之間是否有聯繫,若隨機抽選了一個樣本,其考試成績和產量數字如下表:

斯皮爾曼等級相關係數

從表中的數字可以看出,工人的考試成績愈高其產量也愈高,二者之間的聯繫程度是很一致的,但是相關係數r=0.676 並不算太高,這是由於它們之間的關係並不是線性的,如果分別按考試成績和產量高低變換成等級(見上表第3、4列),則可以計算它們之間的等級相關係數爲1。計算等級相關係數可以將數據變換成等級以後用原有的相關係數公式計算,也可以將算出每一對樣本的等級之差di,然後用下列公式計算:

  \rho=1-\frac{6\sum d_i^2}{n^3-n}

在所舉的例子中由於等級完全一致,所有的di = 0,所以r=1。等級相關係數和通常的相關係數一樣,它與樣本的容量有關,尤其是在樣本容量比較小的情況下,其變異程度較大,等級相關係數的顯著性檢驗與普通的相關係數的顯著性檢驗相同。

Kendall秩相關係數 

Kendall(肯德爾)係數的定義:n個同類的統計對象按特定屬性排序,其他屬性通常是亂序的。同序對(concordant pairs)和異序對(discordant pairs)之差與總對數(n*(n-1)/2)的比值定義爲Kendall(肯德爾)係數。

如果兩個排名之間的一致性是完美的(即兩個排名相同),則係數的值爲1。

如果兩個排名之間的分歧是完美的(即,一個排名與另一個排名相反),則係數的值爲-1。

對於所有其他安排,值介於-1和1之間,值的增加意味着排名之間的一致性增加。如果排名完全獨立,則係數的平均值爲0。

定義了Kendall-tau係數:

\tau = \frac{2P}{\frac{1}{2}{n(n-1)}} - 1 = \frac{4P}{n(n-1)} - 1

其中n是項目數,P是在所有項目中,在給定項目之後按兩個排名排列的項目數之和。

P也可以解釋爲協和對的個數。τ定義中的分母可以解釋爲項對的總數。因此,P的高值意味着大多數配對是一致的,這表明這兩個排名是一致的。請注意,捆綁的一對不被視爲和諧或不和諧。如果有大量的聯繫,則應相應地調整對的總數(在τ表達式的分母中)。

假設我們按身高和體重給一組8個人排序,其中a個人最高,第三重,依此類推:

Person A B C D E F G H
Rank by Height 1 2 3 4 5 6 7 8
Rank by Weight 3 4 1 2 5 7 8 6

我們看到這兩個排名之間存在着某種關聯,但這種關聯遠不是完美的。我們可以用Kendall-tau係數來客觀地衡量對應程度。

請注意,在上面的權重排序中,第一個條目3的右邊還有七個其他元素(4,1,2,5,7,8,6)。在其他排名中,有多少個元素也在3的右邊?

在身高排名中,3右邊的元素是:4,5,6,7,8,所以在兩個排名中,3右邊的元素是5(它們是4,5,6,7,8),所以這個條目對P的貢獻是5。

轉到第二個條目4,我們看到它右邊有六個元素。在這些元素中,在其他排名中也在4的右邊的元素是4(5,6,7,8),所以對P的貢獻是4。繼續這樣,我們發現

P = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22.

因此: \tau= \frac{88}{56}-1 = \frac{44}{28}-1 = 0.57.

這一結果表明,正如預期的那樣,各排行榜之間的一致性很強。

Kendall相關係數是對兩個有序變量或兩個秩變量之間相關程度的度量統計量,因此也屬於非參數統計範疇。Spearman區別在於某一比較數據需要有序,在有序情況下計算速度比Spearman快。

  1. 用於反映分類變量相關性的指標,適用於兩個分類變量均爲有序分類的情況。
  2. 對相關的有序變量進行非參數相關檢驗。
  3. 計算Kendall秩相關係數,適合於定序變量或不滿足正態分佈假設的等間隔數據。
  4. 若不恰當用了Kendall 等級相關分析則可能得出相關係數偏小的結論。

什麼是等級相關係數

在實際應用中,有時獲得的原始資料沒有具體的數據表現,只能用等級來描述某種現象,要分析現象之間的相關關係,就只能用等級相關係數。

等級相關係數亦稱爲“秩相關係數”,是反映等級相關程度的統計分析指標。常用的等級相關分析方法有Spearman等級相關和Kendall等級相關等。

等級相關係數的計算步驟

1、把數量標誌和品質標誌的具體表現按等級次序編號。

2、按順序求出兩個標誌的每對等級編號的差。

3、按下式計算相關係數:

r_s=1-\frac{6\sum d_i^2}{n(n^2-1)}

其中:等級相關係數記爲rsdi爲兩變量每一對樣本的等級之差,n爲樣本容量。

等級相關係數與相關係數一樣,取值-1到+1之間,rs爲正表示正相關,rs爲負表示負相關,rs等於零爲零相關,區別是它是建立在等級的基礎上計算的,較適用於反映序列變量的相關。


Pearson, Kendall和Spearman三種相關分析方法有什麼異同

兩個連續變量間呈線性相關時,使用Pearson積差相關係數,不滿足積差相關分析的適用條件時,使用Spearman秩相關係數來描述。

Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分佈不作要求,屬於非參數統計方法,適用範圍要廣些。對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些。Pearson相關係數的計算公式可以完全套用Spearman相關係數計算公式,但公式中的x和y用相應的秩次代替即可。

當兩變量不符合雙變量正態分佈的假設時,需用Spearman秩相關來描述變量間的相互變化關係。

Kendall's tau-b等級相關係數:用於反映分類變量相關性的指標,適用於兩個分類變量均爲有序分類的情況。對相關的有序變量進行非參數相關檢驗;取值範圍在-1-1之間,此檢驗適合於正方形表格;計算積距pearson相關係數,連續性變量纔可採用;計算Spearman秩相關係數,適合於定序變量或不滿足正態分佈假設的等間隔數據; 計算Kendall秩相關係數,適合於定序變量或不滿足正態分佈假設的等間隔數據。

計算相關係數:當資料不服從雙變量正態分佈或總體分佈未知,或原始數據用等級表示時,宜用 spearman或kendall相關。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章