多元線性迴歸模型檢驗-續上篇

https://editor.csdn.net/md/?articleId=105137945
其實上一篇討論的多元線性迴歸還不是很全面,而且訓練和測試集都沒有分,在這裏繼續討論多元線性迴歸模型檢驗的相關問題。

只要有P值的出現,樣本量不超過5000,比如線性迴歸和邏輯迴歸;搞清楚算法背後的邏輯纔是比較重要的。

多元線性迴歸需要關注一些什麼點?R2和模型穩定性,也就是那些β是不是穩定的,檢驗模型是不是穩定需要對模型進行診斷。

多元線性迴歸的輸出變量是連續變量,輸入變量中如果包含離散變量需要做啞變量或One-hot編碼,連續變量可以直接用來建模。

多元線性迴歸假設解釋

多元線性迴歸需要滿足的假設其實是比較強的,但是在機器學習或者是數據挖掘領域,後3條針對誤差項(其實就是殘差)的假設基本上被忽略了。
第1條: 看因變量y和自變量x之間的關係,可以通過繪製散點圖,確定是線性、二次函數還是指數函數關係,根據這個來建立x和y之間的關係。後面的神經網絡和SVM等模型就是爲了方便找到x和y之間的關係。
第2條: 解釋變量和隨機擾動項不存在線性關係。我們想象一下,如果他們之間存在線性關係的話,是不是會導致迴歸係數估計的不準確啊,舉個例子解釋變量y是收入,x是受教育程度,並假設迴歸方程是 y = 0.5x + e,設想如果擾動項裏面包含父母收入,實際上父母收入會影響孩子的收入y,那麼迴歸係數估計值0.5是不是偏高了啊。那怎麼解決這個問題呢,那就多納入一些變量來參與建模吧,這也是多元線性迴歸存在的必要性,同時這也引出了一個變量篩選的問題。
第3條:解釋變量之間不存在線性關係(或強相關)。在建模時,我們不但需要估計迴歸係數的均值,還需要估計迴歸係數的標準差:S(β)= S(e)/ |x|,那麼如果解釋變量x之間存在線性關係的話,分母趨向於0了,迴歸係數標準差趨於無窮大,所以多重共線性問題是需要去避免的。

多元線性迴歸診斷方法

如果擾動項是右偏,那麼殘差圖肯定是異方差分佈,取對數即可,所以下圖中假設5和假設4可以說是一致的。
在這裏插入圖片描述

多元線性迴歸模型的診斷

(1)殘差分析:實際上當殘差不包含任何信息的時候是最好的,如果還包含一些信息,需要把這個信息提取出來。殘差圖的縱座標是殘差,橫座標可以是各個解釋變量x,實際上在做單變量分析,解釋變量x被解釋變量y做相關性分析的時候就知道了;比如某個解釋變量x和被解釋變量y都是右偏,那麼殘差圖肯定是異方差,同時取對數重新建模;如果某個解釋變量x和被解釋變量y存在拋物線關係,那麼加入二次項重新進行建模;自相關一般在時間序列數據中比較常見。
在這裏插入圖片描述
在這裏插入圖片描述
(2)強影響點分析
爲什麼要做強影響點分析???因爲有了強影響點的存在之後,會把本來沒有關係的數據帶出關係來,而且這個關係特別不穩定。比如下圖,本來數據點之間沒有什麼關係,但是因爲強影響點的存在之後,給數據帶出來了這麼一個線性關係出來,但這個關係是非常不穩定的,不具有大衆性。
在這裏插入圖片描述
怎麼解決強影響點分析問題???學生化殘差(只做一次)。

|SR| = (殘差 - 殘差均值) / 殘差標準差。
|SR| > 2,剔除掉滿足條件的記錄(幾百個樣本)
|SR| > 3,剔除掉滿足條件的記錄(幾千個樣本)

(3)共線性問題
可以參考下面的鏈接:https://www.sohu.com/a/326904117_100103806
共線性的判別指標:膨脹係數VIF、相關係數
共線性的解決方法:根據VIF和相關係數手動剔除變量、逐步迴歸法、嶺迴歸。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章