本案例是IBM SPSS數據分析與挖掘實戰案例精粹----第九章的學習記錄
案例背景:分析出導致急救後遲發性顱腦損傷的主要影響因素,共有201項案例:
分析思路:先使用logistic迴歸模型進行影響因素篩選,然後利用分類樹探索自變量中是否存在交互作用,最後利用廣義線性模型過程擬合帶交互項的Logistic迴歸模型
字段:性別,年齡,收縮壓,舒張壓,血小板,腦挫傷,中線位移,腦腫脹,入院意識,是否手術急救,其餘急救措施,是否出現遲發性腦損傷;(數據無缺失)
1、對於數值型的因變量,可以通過查看因變量情況自變量分佈情況,或者比較均值等查看其相關性
2、對於分類型變量,可以使用卡方檢驗
卡方檢驗:在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
a,pearson卡方:最標準,最常用,樣本充足時使用;
b,連續性校正卡方檢驗:當樣本n≥40時,如果只有1/5以下單元格期望頻數1≤T ≤5。
c,Fisher確切概率法;d,似然比卡方;e,線性卡方:
可以通過分析----描述統計----交叉表來實現卡方檢驗,但是檢驗結果會分成多個表,閱讀較困難;
也可以 通過 :分析---表---設定表,然後將自變量和因變量分別拖到行列框,在檢驗統計量中選擇卡方檢驗,結果如下:
從經驗上講,P值小於0.2的變量可以考慮隨後的建模中繼續探索,P值大於0.2的(除非專業上有很明確的意義),否則不做重點考察;
對連續變量進行t檢驗:
分析---表---設定表,然後將自變量和因變量分別拖到行列框,在檢驗統計量中選擇t檢驗,結果如下:
構建二分類logistic迴歸模型:
適用條件:1)因變量爲二分類的分類變量,或某事件的發生率;2)自變量與logit(p)之間爲線性相關;3)殘差合計爲0,且服從二項分佈;4)各觀測對象間相互獨立;
建立模型:
分析----迴歸----二元logistic
將所有相關的自變量全部拖到協變量(連續變量)列表框;選擇“分類“按鈕,將意識程度選入“分類協變量”(將自動進行編碼,轉化爲二元分類變量--啞變量(同進同出,啞變量本身是一個分類變量按其n個水平值拆出來的n-1個變量,所以要麼一起進入模型要麼一起不進入模型。);
上圖結果解讀,表示當某個參數引入時,對模型的改善程度(score),sig<0.05的變量纔有引入的價值,結果僅供參考;
上圖結果解讀,可以看到各個變量的相關統計量,一般認爲sig>0.05的變量沒有納入的價值;
、構建最終模型(變量篩選):只使用舒張壓,使用激素,ln血小板三個自變量;
和全模型相比,只增加了兩個錯誤的案例,可以認爲效果相差不大;
結果解讀,激素的影響最大,最終的迴歸方程logit(p) = 44.575-1.211*舒張壓-9.998*使用激素-5.497*ln(血小板)
利用樹模型發現交互項:
問題:1、自變量與因變量之間是簡單的線性關係嗎?2、對遲發性顱腦損傷,各變量之間是否有相互左右?
CHAID:用卡方檢驗作爲樹分類的基本方法,因此只適用於分類變量,其次爲多叉樹
CRT:分類樹與迴歸樹,當爲連續型變量時,爲迴歸樹,適用於分類變量和連續變量,二叉樹
QUEST?:二叉樹
建模:分析----分類----樹;因變量與自變量選擇;增長方法:CRT;“輸出”---樹---輸出方向---從左自右---樹節點內容:表和圖表
“輸出”---“統計量”---自變量---對模型的重要性(繼續);
“條件”---增長限制---最小個案數:父節點:30,子節點:5(繼續);確定;
構建樹如下:
重要性排在前三的自變量分別是舒張壓,血小板自然對數,和是否使用激素;與logistic分析結論完全一致;
使用廣義線性過程進行分析
廣義線性模型組成部分:
1、因變量:不同取值間相互獨立,服從指數簇概率分佈,它可能不具有穩定的方差,但方差必須能夠表達爲依賴於均數的函數;
2、線性部分:和傳統線性模型沒什麼區別
3、連接函數:用於描述因變量的期望值如何與線性預測值相關聯
廣義線性模型擴展了傳統線性模型:
1、將因變量的分佈範圍從正態分佈擴展到二項分佈,Poission分佈,負二項分佈等指數分佈簇
2、通過連接函數,把因變量取值變換到自變量的線性預測的取值範圍
建立模型:“分析”----“廣義線性模型”----“廣義線性模型”
“模型類型”----連接函數選“二元logistic”
“響應”----“遲發腦損傷”放入“因變量”,“二元響應”----參考類別----第一個值
“預測”----“激素”選入“因子”,“舒張壓”和“血小板自然對數”選入“協變量”
“模型”----將“構建項模型”----“交互”----“舒張壓”和“ln血小板”的交互項選入模型
在最後的結果中:會出現“舒張壓”*“ln血小板”項的檢驗;
總結:
1、對預防遲發性腦損傷作用最大的指標是在急救中使用激素,結果顯示使用激素之後遲發性腦損傷的風險會下降至原先的1/200000
2、相比之下,舒張壓和血小板對數值雖然有作用,但其作用明顯弱於激素
3、其他因素對遲發性腦損傷均無作用
4、血小板與舒張壓對數值間存在協同性的正向交互作用
模型總結:
1、logistic迴歸可以給出的簡單的明確的迴歸方程,清晰易懂的結果解釋,但是它明確地將自變量和logit P的關係定位線性,在進行交互項和檢驗方面比較笨拙;
2、樹模型長於預測,發現變量間潛在的交互作用,但無法給出明確的模型表達式,且在分析中需要較大的樣本量,否則很有可能有價值的信息,當樣本量充足時,它可能給出太多的信息以至分析者無法從中理清各影響因素的主次關係;
3、模型過於複雜,難以理解,但是可以探索模型因子的交互作用