細說迴歸分析

原創

2020-07-03 04:48

什麼是迴歸

我們先來聊聊歷史，從迴歸這個詞被髮明的源頭聊起。話說有一個叫高爾頓的生物學家兼統計學家在研究人類遺傳問題時發現了一個現象：非常高的父親，其兒子的身高往往要比父親矮一點，而非常矮的父親，兒子的身高也會比父親高一些，也就是說，人類的身高從高矮兩個極端移向所有人的平均值，他把這種現象稱爲“向平均迴歸（regression to the mean）”。

其實仔細想想這種現象應該是正常的纔對，如果不發生這種向平均值迴歸的事情，那麼高的人後代將越來越高，同樣矮的人的後代會越來越矮，那麼經過一系列的種族繁衍後，人類將變成特別高和特別矮的兩極分化狀態。

這是迴歸這個詞的由來，所以我們再來理解一下什麼是迴歸分析，首先我要去分析兩個現象之間有什麼關係，然後我要知道現象之間的具體形式，並用數學表達式來展示。比如上次的相關性分析中我們說到了城市化水平和離婚率之間存在着相關關係，那麼這兩個變量之間的關係到底深到什麼程度，是誰在影響誰，這就需要我們用函數定量地去描述，這就是迴歸。

在說相關性的時候，我們會把兩個變量之間的關係用散點圖來展示，更進一步地，還會去找到一條最合適的平均線，也就是“向平均迴歸的線”，而這條線的函數表達式，就是我們說的迴歸方程，所以說，迴歸分析要尋找的就是變量之間的最佳擬合關係。

常見迴歸算法

有線性和非線性，這裏我們就重點說下線性迴歸

線性迴歸，顧名思義，就是用一條直線去擬合樣本的趨勢。包括一元線性迴歸和多元線性迴歸，在實踐中，多元應用的較多。什麼是“元”？實際上就是自變量X，一個X就是一元線性迴歸，多個X就是多元線性迴歸。

一元線性迴歸是最基本的迴歸，對於每一個自變量X都有因變量Y，誤差項是一個服從正態分佈的隨機變量且相互獨立，上公式：

多元線性迴歸就是多個自變量x，X和Y之間的函數關係如下：

在線性迴歸裏，我們只需要關注2點：一個是x和y是線性表達式，這一點很重要，如果有非線性關係的變量我們用線性來描述，這就是誤區了；另一點是線性迴歸有一個誤差項，且誤差項服從正態分佈，這個怎麼理解呢？不是所有的關係都能百分之百用函數表達式去解釋的，可能有80%的部分我們可以去解釋，但是還有20%的部分我們解釋不了，就把它歸爲誤差項。