細說迴歸分析

什麼是迴歸

我們先來聊聊歷史,從迴歸這個詞被髮明的源頭聊起。話說有一個叫高爾頓的生物學家兼統計學家在研究人類遺傳問題時發現了一個現象:非常高的父親,其兒子的身高往往要比父親矮一點,而非常矮的父親,兒子的身高也會比父親高一些,也就是說,人類的身高從高矮兩個極端移向所有人的平均值,他把這種現象稱爲“向平均迴歸(regression to the mean)”。

 

其實仔細想想這種現象應該是正常的纔對,如果不發生這種向平均值迴歸的事情,那麼高的人後代將越來越高,同樣矮的人的後代會越來越矮,那麼經過一系列的種族繁衍後,人類將變成特別高和特別矮的兩極分化狀態。

這是迴歸這個詞的由來,所以我們再來理解一下什麼是迴歸分析,首先我要去分析兩個現象之間有什麼關係,然後我要知道現象之間的具體形式,並用數學表達式來展示。比如上次的相關性分析中我們說到了城市化水平和離婚率之間存在着相關關係,那麼這兩個變量之間的關係到底深到什麼程度,是誰在影響誰,這就需要我們用函數定量地去描述,這就是迴歸。

在說相關性的時候,我們會把兩個變量之間的關係用散點圖來展示,更進一步地,還會去找到一條最合適的平均線,也就是“向平均迴歸的線”,而這條線的函數表達式,就是我們說的迴歸方程,所以說,迴歸分析要尋找的就是變量之間的最佳擬合關係。

常見迴歸算法

有線性和非線性,這裏我們就重點說下線性迴歸

線性迴歸,顧名思義,就是用一條直線去擬合樣本的趨勢。包括一元線性迴歸和多元線性迴歸,在實踐中,多元應用的較多。什麼是“元”?實際上就是自變量X,一個X就是一元線性迴歸,多個X就是多元線性迴歸。

一元線性迴歸是最基本的迴歸,對於每一個自變量X都有因變量Y,誤差項是一個服從正態分佈的隨機變量且相互獨立,上公式:

 


多元線性迴歸就是多個自變量x,X和Y之間的函數關係如下:

 

在線性迴歸裏,我們只需要關注2點:一個是x和y是線性表達式,這一點很重要,如果有非線性關係的變量我們用線性來描述,這就是誤區了;另一點是線性迴歸有一個誤差項,且誤差項服從正態分佈,這個怎麼理解呢?不是所有的關係都能百分之百用函數表達式去解釋的,可能有80%的部分我們可以去解釋,但是還有20%的部分我們解釋不了,就把它歸爲誤差項。

評價迴歸算法的指標

做出了迴歸分析的表達式,那麼如何評價它的好壞呢?這樣預測是準確還是不準確呢?就要用到幾個指標來評價。

R平方

評估模型擬合度的好壞,取值範圍是[0,1],R平方越大,說明模型擬合的越好。R平方的值與自變量的個數有關,自變量越多,R方越大,這樣的話就削弱了R方的評價能力,因此需要剔除自變量數目影響後的R平方,也就是修正後的R平方,這是在多元線性迴歸中需要了解的。

在Excel中我們可以通過畫趨勢線來得到R平方。

 


 

F統計量

檢驗因變量和自變量之間的線性關係是否顯著,迴歸方程整體的顯著性檢驗,用到的是F檢驗。

P值

迴歸方程係數的顯著性檢驗:P值,理論顯著性水平α值,通常爲0.01、0.05。如果某個係數對應的P值小於顯著性水平,則認爲在顯著性水平下,該回歸係數是顯著的。

這些評價指標還可以用Excel裏的【迴歸】功能實現。

 

我在之前的文章中也寫過具體的做法:

致命的迴歸錯誤

  • 多元共線性:幾個自變量高度相關,會導致模型預測能力降低,所以在前期輸入變量的時候就要注意避免共線性的變量輸入。

  • 變量過多:同樣如果變量輸入的太多,可能導致過擬合的問題。

其實這些錯誤都是對業務不理解導致的,所以技術是一方面,思維層面的思考是另一方面,二者結合才能發揮更大的作用。


猜你喜歡:
什麼是好的數據指標:精益數據分析

泰坦尼克號數據分析

深入淺出數據分析

數據分析都有哪些崗位?

爲什麼要學統計學:赤裸裸的統計學

成爲數據分析師的第三年,我寫了10W字

@ 作者:可樂
@ 公衆號/知乎專欄/頭條/簡書:可樂的數據分析之路
@加個人微信:data_cola,備註:進羣,拉你入 可樂的數據分析羣 和各行各業的小夥伴交流探討數據分析相關內容

微信公衆號

微信公衆號

個人微信號

個人微信號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章