多元線性迴歸模型檢驗-續上篇

原創

python_new

2020-06-17 12:36

https://editor.csdn.net/md/?articleId=105137945
其實上一篇討論的多元線性迴歸還不是很全面，而且訓練和測試集都沒有分，在這裏繼續討論多元線性迴歸模型檢驗的相關問題。

只要有P值的出現，樣本量不超過5000，比如線性迴歸和邏輯迴歸；搞清楚算法背後的邏輯纔是比較重要的。

多元線性迴歸需要關注一些什麼點？R2和模型穩定性，也就是那些β是不是穩定的，檢驗模型是不是穩定需要對模型進行診斷。

多元線性迴歸的輸出變量是連續變量，輸入變量中如果包含離散變量需要做啞變量或One-hot編碼，連續變量可以直接用來建模。

多元線性迴歸假設解釋

多元線性迴歸需要滿足的假設其實是比較強的，但是在機器學習或者是數據挖掘領域，後3條針對誤差項（其實就是殘差）的假設基本上被忽略了。
第1條：看因變量y和自變量x之間的關係，可以通過繪製散點圖，確定是線性、二次函數還是指數函數關係，根據這個來建立x和y之間的關係。後面的神經網絡和SVM等模型就是爲了方便找到x和y之間的關係。
第2條：解釋變量和隨機擾動項不存在線性關係。我們想象一下，如果他們之間存在線性關係的話，是不是會導致迴歸係數估計的不準確啊，舉個例子解釋變量y是收入，x是受教育程度，並假設迴歸方程是 y = 0.5x + e，設想如果擾動項裏面包含父母收入，實際上父母收入會影響孩子的收入y，那麼迴歸係數估計值0.5是不是偏高了啊。那怎麼解決這個問題呢，那就多納入一些變量來參與建模吧，這也是多元線性迴歸存在的必要性，同時這也引出了一個變量篩選的問題。
第3條：解釋變量之間不存在線性關係（或強相關）。在建模時，我們不但需要估計迴歸係數的均值，還需要估計迴歸係數的標準差：S（β）= S（e）/ |x|，那麼如果解釋變量x之間存在線性關係的話，分母趨向於0了，迴歸係數標準差趨於無窮大，所以多重共線性問題是需要去避免的。

多元線性迴歸診斷方法

如果擾動項是右偏，那麼殘差圖肯定是異方差分佈，取對數即可，所以下圖中假設5和假設4可以說是一致的。

多元線性迴歸模型的診斷

（1）殘差分析：實際上當殘差不包含任何信息的時候是最好的，如果還包含一些信息，需要把這個信息提取出來。殘差圖的縱座標是殘差，橫座標可以是各個解釋變量x，實際上在做單變量分析，解釋變量x被解釋變量y做相關性分析的時候就知道了；比如某個解釋變量x和被解釋變量y都是右偏，那麼殘差圖肯定是異方差，同時取對數重新建模；如果某個解釋變量x和被解釋變量y存在拋物線關係，那麼加入二次項重新進行建模；自相關一般在時間序列數據中比較常見。

（2）強影響點分析：
爲什麼要做強影響點分析？？？因爲有了強影響點的存在之後，會把本來沒有關係的數據帶出關係來，而且這個關係特別不穩定。比如下圖，本來數據點之間沒有什麼關係，但是因爲強影響點的存在之後，給數據帶出來了這麼一個線性關係出來，但這個關係是非常不穩定的，不具有大衆性。

怎麼解決強影響點分析問題？？？學生化殘差（只做一次）。

|SR| = (殘差 - 殘差均值) / 殘差標準差。
|SR| > 2，剔除掉滿足條件的記錄（幾百個樣本）
|SR| > 3，剔除掉滿足條件的記錄（幾千個樣本）

（3）共線性問題
可以參考下面的鏈接：https://www.sohu.com/a/326904117_100103806
共線性的判別指標：膨脹係數VIF、相關係數
共線性的解決方法：根據VIF和相關係數手動剔除變量、逐步迴歸法、嶺迴歸。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

多元線性迴歸模型檢驗-續上篇

多元線性迴歸假設解釋

多元線性迴歸診斷方法

多元線性迴歸模型的診斷

認知提升的方法

C#開源的兩款功能強大的錄屏神器

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

前端 Vue yarn.lock文件：詳解和使用指南

數理統計的相關知識

python遍歷文件夾中帶指定後綴的文件並做數據拼接

統計推斷中的參數估計和假設檢驗

常見分佈的概率分佈及期望方差

多元線性迴歸模型檢驗-續上篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結