本案例是IBM SPSS數據分析與挖掘實戰案例精粹----第七章的學習記錄
案例背景或目標:激素水平是否在對照組和實驗組之間存在差異
分析方法:Bootstrap抽樣,秩和檢驗,秩變換方法,cox迴歸
字段包括:性別,年齡,萎縮程度,胃粘膜細胞腸化生程度
基本思路:控制變量法,首先排除性別,年齡,萎縮程度,胃粘膜細胞腸化生程度的影響;
探索性數據分析:觀察樣本量,樣本的分佈,是否存在偏態分不等;
樣本分佈:分析-表
性別 | 萎縮 | 腸化 | 年齡分組 | ||||||||||
男 | 女 | 輕度 | 中度 | 重度 | 無 | 輕度 | 中度 | 重度 | 青年組 | 中年組 | 老年組 | ||
Count | Count | Count | Count | Count | Count | Count | Count | Count | Count | Count | Count | ||
組別 | 試驗組 | 25 | 12 | 14 | 16 | 7 | 10 | 12 | 13 | 2 | 15 | 12 | 10 |
對照組 | 20 | 11 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 10 | 11 | 10 |
查看激素水平分佈:圖形--圖表構建程序
激素水平呈明顯的正偏態分佈,必須考慮假設檢驗方法對數據的分佈要求;
採用Bootstrap抽樣進行分析:常用經典統計學的分析方法,無一例外的需要對變量的分佈進行假定,然後才能進行相應的計算;ootstrap抽樣的基本思想是在全部樣本未知的情況下,藉助部分樣本的有放回多次抽樣,構建某個估計的置信區間,抽象地說,通過樣本得到的估計並沒有榨乾樣本中的信息,bootstrap利用重採樣,把剩餘價值發揮在構建置信區間上。
bootstrap抽樣方法:分析--比較均值--均值--因變量列表(激素水平),自變量列表(組別,性別,年齡),選項--中位數--加入“單元格統計量”,bootstrap子對話框中“執行bootstrap”
可以觀察各個統計量95%區間差異,對某因素的影響進行分析;中位數並不重疊,可能存在統計學差異(初步分析);可以採用採用秩和檢驗進行更精確的分析:
對因變量變量變換後的建模分析:
常見的變量變換方法:1,對數轉換;2,平方根轉換;3,平方根正弦轉換sin(開方);4:平方轉化;5,倒數轉換;6,Box-Cox變換;
對於正偏態分佈,一般常用的是對數變換:分析----描述統計----P-P圖(數據符合指定分佈時,P-P圖中各點近似呈一條直線。)
將字段進行轉換後,使用:
1)分析----一般線性模型----單變量
2)將Injisu選入“因變量”列表框
3)將組別,性別選入“固定因子”列表框,年齡選入“協變量”列表框
4)“模型”子對話框,將組別,性別,年齡的主效應選入“模型”列表框
5)“選項”子對話框,選擇“殘差圖”和“缺乏擬合優度檢驗”
6)確定。
上圖,總模型p值爲0.003,說明整個模型對injisu的預測是有統計學意義的(變量之間相關的),分項來看,只有組別具有統計學意義;
秩變換分析:
當變量轉換無法解決問題時,可以使用秩變換:轉換----個案排序-----將激素水平放入“變量”列表框;
將字段進行轉換後,使用:
1)分析----一般線性模型----單變量
2)將Rjisu選入“因變量”列表框
3)將組別,性別選入“固定因子”列表框,年齡選入“協變量”列表框
4)“模型”子對話框,將組別,性別,年齡的主效應選入“模型”列表框
5)“選項”子對話框,選擇“殘差圖”和“缺乏擬合優度檢驗”
6)確定。
利用Cox模型進行分析:秩變換分析會損失一些信息,除了非參數方法外,還可以利用生存分析中的COX迴歸模型進行分析
總結:性別,年齡對激素水平未發現有影響,試驗組和對照組之間的激素水平存在明顯差異;對於同一個統計問題,可以使用多種模型進行解決,沒有正確的模型,只有更加適合的模型;當結論不一樣時,應根據模型的特點以及真實情況,判斷那種情況更接近真實;也可以使用投票策略進行確定(類似與隨機森林,選擇多數模型結果)