20應用統計考研複試要點(part5)--統計學

學習筆記,僅供參考,有錯必糾


賈俊平統計學


變量選擇與逐步迴歸


根據多個自變量建立迴歸模型時,若試圖將所有的自變量都引進迴歸模型,帶來的問題往往讓人無所適從,或者是對所建立的模型不能進行有效的解釋。

  • 變量選擇過程

在建立迴歸模型時,總希望儘可能用最少的變量來建立模型。但究竟哪些自變量應該引入模型,哪些自變量不應該引入模型,這就要對自變量進行一定的篩選。

如果在進行迴歸時,每次只增加一個變量,並且將新變量與模型中的變量進行比較,若新變量引人模型後以前的某個變量的t統計量不顯著,這個變量就會被從模型中剔除。在這種情況下,迴歸分析就很難存在多重共線性的影響,這就是迴歸中的搜尋過程。

選擇自變量的原則通常是對統計量進行顯著性檢驗,檢驗的根據是:將一個或一個以上的自變量引人迴歸模型中時,是否使殘差平方和(SSE)顯著減少。如果增加一個自變量使殘差平方和(SSE)顯著減少,則說明有必要將這個自變量引入迴歸模型,否則,就沒有必要將這個自變量引人迴歸模型。確定在模型中引人自變量xix_i是否使殘差平方和(SSE)顯著減少的方法,就是使用F統計量的值作爲一個標準,以此來確定是在模型中增加一個自變量,還是從模型中剔除一個自變量。

變量選擇的方法主要有:向前選擇、向後剔除、逐步迴歸、最優子集等。


其他參考書


變量選擇與逐步迴歸


  • 必要性

模型中的自變量的數目一般追求“少而精”,丟掉一些不太重要的自變量後,雖然使估計量產生了有偏性,但會更加穩定,預測精度也會提高.

  • 準則

調整後的R2R^2越大越好,AIC值越小越好。

注意:SSE或R2R^2不宜作爲準則,因爲自變量子集擴大時,SSE會減小,R2R^2會增大,包含虛假成分。

  • 方法

方法一:向前選擇

只進不出,每次引入一個最顯著變量,變量由少到多,直至無顯著變量可引入爲止。優點是計算量小,缺點是“終身制”。

方法二:向後剔除

只出不進,先用全部變量建立迴歸方程,再逐個剔除最不顯著變量。變量由多到少,直至無不顯著變量可以剔除爲止。優點是每個變量都有展示自己的機會,缺點是計算量大,“一棍子打死”。

方法三:逐步迴歸

有進有出,逐個引入變量,每引入一個變量後,對已入選變量逐個檢驗,剔除不再顯著變量,再考慮引入,如此下去,直至無顯著變量可引入,也無不顯著變量可以剔除爲止。吸收了前進法與後退法的優點,並克服了他們的不足。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章