統計迴歸模型
(一)逐步迴歸
前提:當自變量x1,x2,x3…xn過多時,希望進行簡化,找到對因變量貢獻相對較大的自變量
需要計算出相關係數矩陣
然後根據自變量的貢獻係數
找出貢獻最大的自變量,與貢獻最小的自變量,再進一步與F檢驗的Fin,Fout兩個臨界值比較,
判斷是否能被選入,是否被剔除
再選出一個自變量之後,該自變量變爲主元,對相關係數矩陣進行變化
在進行下一輪判斷,直到所有的自變量都被確定
(二)關於方差
一般假設殘差要滿足正態分佈,需要進行殘差檢驗,
最直觀的就是起碼殘差要有正有負,不能全爲正值或負值,且分佈不能與自變量之間存在關係
(三)相關係數R和F檢驗的F值越大越好
(四)Logit迴歸
適用於二分類問題
引入π(x)=p(y=1|x),與logit變換log(π(x)/(1-π(x)),一些注意的問題
1.如果自變量xi有三種情況及以上,即比如尺碼有小中大,此時需要引入亞變量,
例如xi變爲[xi0,xi1].即[0,0]表示小,[0,1]表示中,[1,0]表示大
2.log(π(x)/(1-π(x))=A(x),A(x)的次數依情況和數據而定
是否引入高次項要根據似然比檢驗統計量
3.迴歸係數在logit模型中有可解釋的意義
Odd(x)=π(x)/(1-π(x),odd(x)爲發生比,當A(x)=ax+b時.odd(x)=exp(ax+b)
Odd(x+1)/odd(x)=exp(a),即自變量變化1各單位,發生比的變化情況
(五)自相關.同一變量順序觀測值之間存在相關性,這時候用基本的迴歸模型就已經不行了.
比如體重,就是一個自相關的自變量,t時刻的體重與t-1時刻的體重是相關的
先有DW檢驗判斷是否存在自相關,根據值進行判斷落在不相干,正自相關,負自相關
然後對原有的線性迴歸進行修訂
(六)考慮交互項,如果模型存在很大的可以改進的空間,可以引入類似於x1x2,x2x3,考慮他們的交互作用,重新進行擬合