相關係數評價標準的相關知識

作者:niaocu
鏈接:https://www.zhihu.com/question/51784983/answer/127640857
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

說來話長,正好我講過這一章,所以就從課件中複製粘貼過來(資料來源是David S. Moore的 《統計學的世界》),我儘量剪短一點(主要是公式太難粘貼,相信你可以在任何一本統計學書上找到下文所涉及的公式)。如果嫌前面背景介紹太麻煩,請直接到最後一段——

線性關係straight-line)是相當重要的一種變量間的關係——它雖然簡單但卻很普遍。如果(散點圖)中的點越接近一條直線,那麼線性關係就越強,如果越散亂,則線性關係越弱。有一種數字方法可以幫助我們描述這種線性相關關係有多強,這個數字就是correlation——相關係數r(計算公式略)。。。


------相關係數背景知識-----

相關係數的含義 Understanding Correlation

比計算r(a task for a machine)更重要的是瞭解correlation是如何衡量相關關係。以下是關於r的幾個事實:

r正號正相關、負號負相關(Positive r indicatespositive association between the variables, and negative r indicates negativeassociation.)。

r值介於[-1, 1]之間(The correlation r always fallsbetween –1 and 1)。r值越接近0,相關度越弱(等於0,線性無關),隨着r值往-1或1移動,相關度增強,越接近-1或1,則points越接近一條直線。如果是取到極端值(r = -1和r = 1),則散點圖的points就是在一條直線上。
rx, y變量的單位無關,改變變量的單位並不影響它們之間的相關關係(Becauser use standard scores, the correlation between x and y does notchange when we change the units of measurement of x, y, or both)。r本身沒有單位。

r不對自變量和因變量進行區分(Correlation ignoresthe distinction between explanatory and response variables)。如果對調我們對xy的選擇,r仍舊不變。

r只衡量兩個變量之間線性相關關係(straight-line association)的強弱。但無法描述兩個變量間的曲線關係(curved relationships),不論這種曲線關係有多強。——即使r顯示兩個變量間線性無關,也無法斷定兩個變量間沒有線性以外的關係。


----相關係數深入知識----

Correlation & regression 相關係數與迴歸

在線性迴歸分析中還經常可以看到r2——相關係數的平方,又叫相關判定係數。


r2 就是變量y值的變動能用迴歸直線來解釋的比例(the fraction of the variation in the values of y that is explained by the least-squares regression of y on x)。其中的意義在於,假如存在直線迴歸關係,則y值的變動之中有一部分是由於x的變化引起的——x沿着迴歸直線拉動y值。涉及三個概念:


a. y的變動(Total sum of squares)——y的觀測值yi圍繞y均值的變動(Measures variation of observed yi around the mean),即SST

b. 可解釋的變動(Explained variation)——由於xy存在線性關係引起的變動(Variation due torelationship between x & ySSR

c. 不可解釋的變動(Unexplained variation)——由於其它因素引起的變動(Variationdue to other factor),即SSE

三者的關係:SST = SSR + SSE,總變動 = 可解釋變動 + 不可解釋變動,如圖


r2= 可預測的因x的變動引起的y在迴歸直線上變動 / y觀測值的總變動

= 可解釋變動 / 總變動

=SSR/SST


運用該方法計算出來的r2,與先計算相關係數r之後,再平方得到的是同一個數(計算相關係數r的另一個方法——先求r2,然後再開根號,但缺點是不能判斷正負號(不知道相關的方向。)。由r2的計算公式可知,0≤r2≤1。r2的含義


► 當r = ±1時,r2= 1,所有的點都在同一條直線上。直線關係解釋所有y的變動(SST=SSR、y的變動全部由於x的變動引起),迴歸直線能完美預測y值。

► 當r≠±1且r≠0時,0<r2<1時(SST>SSR),線性關係能部分解釋y的變動(所解釋的部分就是r2所代表的值)。如前面施肥與產量的例子r = .956,r2=.914,亦即產量y的變動中大約有有91%能由與施肥量x線性關係來解釋。

► 當r = 0,r2= 0,y的全部無法由於線性關係解釋。


在迴歸預測中,通常用r2來衡量如果以迴歸模型來解釋因變量有多成功(how successful the regressionwas in explaining the response)。如果提供的是相關係數,將其平方後你就能更好的理解線性關係的強弱。比如:如果r = ±.7,則兩個變量線性相關關係介於線性無關(r = 0)和完全線性相關( r = ±1)的“半路上”,因爲(.7)^2= 0.49。課本上的練習和例子一般提供的r(甚至r2)都大於.9(高度相關),現實中只要迴歸模型的r2在.4、.5甚至.3(即相當於r在.5以上)就可以認爲其擬合度相當高,可以利用其進行線性關係預測。


——資料來源:David S. Moore, 《統計學的世界》,中信出版社,2003年11月


問題到這裏,你就知道爲何

“相關係數 0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關 ”

了吧?把相關係數平方一下。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章