鏈接:https://www.zhihu.com/question/51784983/answer/127640857
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
線性關係(straight-line)是相當重要的一種變量間的關係——它雖然簡單但卻很普遍。如果(散點圖)中的點越接近一條直線,那麼線性關係就越強,如果越散亂,則線性關係越弱。有一種數字方法可以幫助我們描述這種線性相關關係有多強,這個數字就是correlation——相關係數r(計算公式略)。。。
------相關係數背景知識-----
相關係數的含義 Understanding Correlation
比計算r(a task for a machine)更重要的是瞭解correlation是如何衡量相關關係。以下是關於r的幾個事實:
► r正號正相關、負號負相關(Positive r indicatespositive association between the variables, and negative r indicates negativeassociation.)。
► r值介於[-1, 1]之間(The correlation r always fallsbetween –1 and 1)。r值越接近0,相關度越弱(等於0,線性無關),隨着r值往-1或1移動,相關度增強,越接近-1或1,則points越接近一條直線。如果是取到極端值(r = -1和r = 1),則散點圖的points就是在一條直線上。
► r與x, y變量的單位無關,改變變量的單位並不影響它們之間的相關關係(Becauser use standard scores, the correlation between x and y does notchange when we change the units of measurement of x, y, or both)。r本身沒有單位。► r不對自變量和因變量進行區分(Correlation ignoresthe distinction between explanatory and response variables)。如果對調我們對x和y的選擇,r仍舊不變。
► r只衡量兩個變量之間線性相關關係(straight-line association)的強弱。但無法描述兩個變量間的曲線關係(curved relationships),不論這種曲線關係有多強。——即使r顯示兩個變量間線性無關,也無法斷定兩個變量間沒有線性以外的關係。
----相關係數深入知識----
Correlation & regression 相關係數與迴歸
在線性迴歸分析中還經常可以看到r2——相關係數的平方,又叫相關判定係數。
r2 就是變量y值的變動能用迴歸直線來解釋的比例(the fraction of the variation in the values of y that is explained by the least-squares regression of y on x)。其中的意義在於,假如存在直線迴歸關係,則y值的變動之中有一部分是由於x的變化引起的——x沿着迴歸直線拉動y值。涉及三個概念:
a. y的變動(Total sum of squares)——y的觀測值yi圍繞y均值的變動(Measures variation of observed yi around the mean),即SST
b. 可解釋的變動(Explained variation)——由於x和y存在線性關係引起的變動(Variation due torelationship between x & y),即SSR
c. 不可解釋的變動(Unexplained variation)——由於其它因素引起的變動(Variationdue to other factor),即SSE
三者的關係:SST = SSR + SSE,總變動 = 可解釋變動 + 不可解釋變動,如圖
r2= 可預測的因x的變動引起的y在迴歸直線上變動 / y觀測值的總變動
= 可解釋變動 / 總變動
=SSR/SST
運用該方法計算出來的r2,與先計算相關係數r之後,再平方得到的是同一個數(計算相關係數r的另一個方法——先求r2,然後再開根號,但缺點是不能判斷正負號(不知道相關的方向。)。由r2的計算公式可知,0≤r2≤1。r2的含義:
► 當r = ±1時,r2= 1,所有的點都在同一條直線上。直線關係解釋所有y的變動(SST=SSR、y的變動全部由於x的變動引起),迴歸直線能完美預測y值。
► 當r≠±1且r≠0時,0<r2<1時(SST>SSR),線性關係能部分解釋y的變動(所解釋的部分就是r2所代表的值)。如前面施肥與產量的例子r = .956,r2=.914,亦即產量y的變動中大約有有91%能由與施肥量x線性關係來解釋。
► 當r = 0,r2= 0,y的全部無法由於線性關係解釋。
在迴歸預測中,通常用r2來衡量如果以迴歸模型來解釋因變量有多成功(how successful the regressionwas in explaining the response)。如果提供的是相關係數,將其平方後你就能更好的理解線性關係的強弱。比如:如果r = ±.7,則兩個變量線性相關關係介於線性無關(r = 0)和完全線性相關( r = ±1)的“半路上”,因爲(.7)^2= 0.49。課本上的練習和例子一般提供的r(甚至r2)都大於.9(高度相關),現實中只要迴歸模型的r2在.4、.5甚至.3(即相當於r在.5以上)就可以認爲其擬合度相當高,可以利用其進行線性關係預測。
——資料來源:David S. Moore, 《統計學的世界》,中信出版社,2003年11月
問題到這裏,你就知道爲何
“相關係數 0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關 ”
了吧?把相關係數平方一下。