機器學習算法學習二：多元線性迴歸

多元線性迴歸

能用office07發佈簡直是太好了，這下子省了很多事。

1、多元線性迴歸模型

假定被解釋變量與多個解釋變量之間具有線性關係，是解釋變量的多元線性函數，稱爲多元線性迴歸模型。即

(1.1)

其中爲被解釋變量，爲個解釋變量，爲個未知參數，爲隨機誤差項。

被解釋變量的期望值與解釋變量的線性方程爲：

(1.2)

稱爲多元總體線性迴歸方程，簡稱總體迴歸方程。

對於組觀測值，其方程組形式爲：

(1.3)

即

其矩陣形式爲

即

(1.4)

其中

爲被解釋變量的觀測值向量；爲解釋變量的觀測值矩陣；爲總體迴歸參數向量；爲隨機誤差項向量。

總體迴歸方程表示爲：

(1.5)

多元線性迴歸模型包含多個解釋變量，多個解釋變量同時對被解釋變量發生作用，若要考察其中一個解釋變量對的影響就必須假設其它解釋變量保持不變來進行分析。因此多元線性迴歸模型中的迴歸係數爲偏回歸係數，即反映了當模型中的其它變量不變時，其中一個解釋變量對因變量的均值的影響。

由於參數都是未知的,可以利用樣本觀測值對它們進行估計。若計算得到的參數估計值爲，用參數估計值替代總體迴歸函數的未知參數，則得多元線性樣本回歸方程：

(1.6)

其中爲參數估計值，爲的樣本回歸值或樣本擬合值、樣本估計值。

其矩陣表達形式爲:

(1.7)

其中爲被解釋變量樣本觀測值向量的階擬合值列向量；爲解釋變量的階樣本觀測矩陣；爲未知參數向量的階估計值列向量。

樣本回歸方程得到的被解釋變量估計值與實際觀測值之間的偏差稱爲殘差。

(1.8)

2、多元線性迴歸模型的假定

與一元線性迴歸模型相同，多元線性迴歸模型利用普通最小二乘法(OLS)對參數進行估計時，有如下假定：

假定1 零均值假定：，即

(2.1)

假定2 同方差假定(的方差爲同一常數)：

（2.2）

假定3 無自相關性：

(2.3)

假定4 隨機誤差項與解釋變量不相關(這個假定自動成立)：

（2.4）

假定5 隨機誤差項服從均值爲零，方差爲的正態分佈：

（2.5）

假定6 解釋變量之間不存在多重共線性：

即各解釋變量的樣本觀測值之間線性無關，解釋變量的樣本觀測值矩陣的秩爲參數個數k+1，從而保證參數的估計值唯一。

3、多元線性迴歸模型的參數估計

3.1迴歸參數的最小二乘估計

對於含有個解釋變量的多元線性迴歸模型

設分別作爲參數的估計量，得樣本回歸方程爲：

觀測值與迴歸值的殘差爲：

由最小二乘法可知應使全部觀測值與迴歸值的殘差的平方和最小，即使

(3.1)

取得最小值。根據多元函數的極值原理，分別對求一階偏導，並令其等於零，即

(3.2)

即

化簡得下列方程組

(3.3)

上述個方程稱爲正規方程，其矩陣形式爲

(3.4)

因爲

設爲估計值向量

樣本回歸模型兩邊同乘樣本觀測值矩陣的轉置矩陣，則有

得正規方程組：

(3.5)

由假定(6)，，爲階方陣，所以滿秩，的逆矩陣存在。因而

(3.6)

則爲向量的OLS估計量。

以二元線性迴歸模型爲例，導出二元線性迴歸模型的OLS估計量的表達式。由(1.3)式得二元線性迴歸模型爲

爲了計算的方便，先將模型中心化。

設，則二元迴歸模型改寫爲中心化模型。

(3.7)

記

(3.8)

將代入得

(3.9)

因爲

(3.10)

則

由(3.6)式得

(3.11)

其中

由(3.11)式可知

得

(3.12)

(3.13)

(3.14)

3.2隨機誤差項的方差的估計量

樣本回歸方程得到的被解釋變量估計值與實際觀測值之間的偏差稱爲殘差

則

設，可以得出是階對稱冪等矩陣，，。於是

而殘差的平方和爲

其中""表示矩陣的跡，即矩陣主對角線元素的和。於是

隨機誤差項的方差的無偏估計量，記作，即，，爲殘差的標準差(或迴歸標準差)。

因此

(3.15)

其中

(3.16)

例如,對於二元線性迴歸模型()

(3.17)

(3.18)

3.3、估計參數的統計性質

1、線性性

指最小二乘估計量是被解釋變量的觀測值的線性函數。

由於

設，則矩陣爲一非隨機的階常數矩陣。所以

(3.19)

顯然最小二乘估計量是被解釋變量的觀測值的線性函數。

2、無偏性

將代入(3-16)式得

(3.20)

則

所以是的無偏估計量。

3.最小方差性

設爲階數值矩陣，爲階隨機矩陣(隨機變量爲元素的矩陣)，爲階數值矩陣，則

下面推導的方差、協方差矩陣。

定義：

由(3.20)式得

所以

(3.21)

這個矩陣主對角線上的元素表示的方差，非主對角線上的元素表示的協方差。例如是位於的第行與第列交叉處的元素(主對角線上的元素)；是位於的第行與第列交叉處的元素(非主對角線上的元素)

在應用上，我們關心的的方差，而忽略協方差，因此把(3.21)式記作

(3.22)

記，則，所以是的最小方差線性無偏估計。這說明，在(1.1)式係數的無偏估計量中，OLS估計量的方差比用其它估計方法所得的無偏估計量的方差都要小，這正是OLS的優越性所在。

用代替則得的標準估計量的估計值，乃稱爲標準差。

(3.23)

其中

對於二元迴歸模型()，求估計量的方差，由(3.22)式得

其中

於是

所以

(3.24)

(3.25)

(3.26)

(3.27)

其中

4. 顯著性檢驗

4.1 擬合優度檢驗

4.1.1總離差平方和分解

設具有個解釋變量的迴歸模型爲

其迴歸方程爲

離差分解：

總離差平方和分解式爲：

(4.1)

即

(4.2)總離差平方和分解爲迴歸平方和與殘差平方和兩部分。體現了觀測值總波動大小，稱爲總偏差平方和，記作TSS. 體現了n個估計值的波動大小，它是由於Y與自變量的變化而引起，被稱作爲迴歸平方和，記爲ESS（Explained Sum of Squares）或U；稱爲殘差平方和，記爲RSS（Residual Sum of Squares）或Q.

4.1.2樣本決定係數

對於多元迴歸方程，其樣本決定係數爲複決定係數或多重決定係數。

，簡記爲。

(4.3)

根據式(4.2)

(4.4)

因爲

由(3.16)式知

所以

(4.5)

作爲檢驗迴歸方程與樣本值擬合優度的指標：越大，表示迴歸方程與樣本擬合的越好；反之，迴歸方程與樣本值擬合較差。

具體的，當時,求樣本決定係數

由(3.8)式，得，因此有

(4.6)

4.1.3調整後的樣本決定係數

在使用時，容易發現的大小與模型中的解釋變量的數目有關。如果模型中增加一個新解釋變量，總離差不會改變，但總離差中由解釋變量解釋的部分，即迴歸平方和將會增加，這就是說與模型中解釋變量個數有關。但通過增加模型中解釋變量的數目而使增大是錯誤的，顯然這樣來檢驗被迴歸方程與樣本值擬合優度是不合適的，需要對進行調整，使它不但能說明已被解釋離差與總離差的關係，而且又能說明自由度的數目。

以表示調整樣本決定係數，

(4.7)

其中

這裏是殘差平方和的自由度，是總離差平方和的自由度。

由(4.7)式得

其中,是樣本觀測值的個數,是解釋變量的個數。從式中可以看出，當增加一個解釋變量時，由前面分析可知會增加，引起減少，而增加，因而不會增加。這樣用判定迴歸方程擬合優度，就消除了對解釋變量個數的依賴。

或只能說明在給定的樣本條件下回歸方程與樣本觀測值擬合優度，並不能做出對總體模型的推測，因此不能單憑或來選擇模型，必須對迴歸方程和模型中各參數的估計量做顯著性檢驗。

4.2方程顯著性檢驗

由離差平方和分解(4.2)式可知，總離差平方和的自由度爲，迴歸平方和是由個解釋變量對的線性影響決定的。因此它的自由度爲。所以，殘差平方和的自由度由總離差平方和的自由度減去迴歸平方和的自由度，即爲。

檢驗迴歸方程是否顯著，

第一步，作出假設

備擇假設H₁：b₁ 、 b₂ 、…、b_k不同時爲0

第二步，在成立的條件下，計算統計量

第三步，查表臨界值

對於假設，根據樣本觀測值計算統計量給定顯著水平，查第一個自由度爲，第二個自由度爲的分佈表得臨界值。當時，拒絕，則認爲迴歸方程顯著成立；當時，接受，則認爲迴歸方程無顯著意義。

4.3參數顯著性檢驗

迴歸方程顯著成立，並不意味着每個解釋變量對被解釋變量的影響都是重要的。如果某個解釋變量對被解釋變量的影響不重要，即可從迴歸模型中把它剔除掉，重新建立迴歸方程，以利於對經濟問題的分析和對進行更準確的預測。爲此需要對每個變量進行考查，如果某個解釋變量對被解釋變量的作用不顯著，那麼它在多元線性迴歸模型中，其前面的係數可取值爲零。因此必須對是否爲零進行顯著性檢驗。

由(3.23)式

(4.8)

其中

爲的第i個對角元素，而，是中心化的數據陣。

對迴歸係數進行顯著性檢驗，步驟如下：

(1)提出原假設；備擇假設。

(2)構造統計量，當成立時,統計量。這裏是的標準差，爲解釋變量個數，計算由式(4.8)給出。

(3)給定顯著性水平，查自由度爲的分佈表，得臨界值。

(4)若，則拒絕，接受，即認爲顯著不爲零。若，則接受，即認爲顯著爲零。

5.迴歸變量的選擇與逐步迴歸

5.1變量選擇問題

在實際問題中，影響因變量Y的因素（自變量）很多，人們希望從中挑選出影響顯著的自變量來建立迴歸關係式，這就涉及到自變量選擇的問題。

在迴歸方程中若漏掉對Y影響顯著的自變量，那麼建立的迴歸式用於預測時將會產生較大的偏差。但迴歸式若包含的變量太多，且其中有些對Y影響不大，顯然這樣的迴歸式不僅使用不方便，而且反而會影響預測的精度。因而選擇合適的變量用於建立一個"最優"的迴歸方程是十分重要的問題。

選擇"最優"子集的變量篩選法包括逐步迴歸法(Stepwise),向前引入法（Forward）和向後剔除法(Backwad)。

向前引入法是從迴歸方程僅包括常數項開始，把自變量逐個引入迴歸方程。具體地說，先在m個自變量中選擇一個與因變量線性關係最密切的變量，記爲，然後在剩餘的m-1個自變量中，再選一個，使得聯合起來二元迴歸效果最好，第三步在剩下的m-2個自變量中選擇一個變量，使得聯合起來迴歸效果最好，...如此下去，直至得到"最優"迴歸方程爲止。

向前引入法中的終止條件爲，給定顯著性水平，當某一個對將被引入變量的迴歸係數作顯著性檢查時，若p-value ，則引入變量的過程結束，所得方程即爲"最優"迴歸方程。

向前引入法有一個明顯的缺點，就是由於各自變量可能存在着相互關係，因此後續變量的選入可能會使前面已選入的自變量變得不重要。這樣最後得到的"最優"迴歸方程可包含一些對Y影響不大的自變量。

向後剔除法與向前引入法正好相反，首先將全部m個自變量引入迴歸方程，然後逐個剔除對因變量Y作用不顯著的自變量。具體地說，從迴歸式m個自變量中選擇一個對Y貢獻最小的自變量，比如，將它從迴歸方程中剔除；然後重新計算Y與剩下的m-1個自變量回歸方程，再剔除一個貢獻最小的自變量，比如,依次下去，直到得到"最優"迴歸方程爲止。向後剔除法中終止條件與向前引入法類似。

向後剔除法的缺點在於，前面剔除的變量有可能因以後變量的剔除，變爲相對重要的變量，這樣最後得到的"最優"迴歸方程中有可能漏掉相對重要的變量。

逐步迴歸法是上述兩個方法的綜合。向前引入中被選入的變量，將一直保留在方程中。向後剔除法中被剔除的變量，將一直排除在外。這兩種方程在某些情況下會得到不合理的結果。於是，可以考慮到，被選入的的變量，當它的作用在新變量引入後變得微不足道時，可以將它刪除；被剔除的變量，當它的作用在新變量引入情況下變得重要時，也可將它重新選入迴歸方程。這樣一種以向前引入法爲主，變量可進可出的篩選變量方法，稱爲逐步迴歸法。