spss實戰案例----分析多個變量與因變量之間是否存在關係,方差分析

本案例是IBM SPSS數據分析與挖掘實戰案例精粹----第七章的學習記錄

案例背景或目標:激素水平是否在對照組和實驗組之間存在差異

分析方法:Bootstrap抽樣,秩和檢驗,秩變換方法,cox迴歸

字段包括:性別,年齡,萎縮程度,胃粘膜細胞腸化生程度

基本思路:控制變量法,首先排除性別,年齡,萎縮程度,胃粘膜細胞腸化生程度的影響;

探索性數據分析:觀察樣本量,樣本的分佈,是否存在偏態分不等;

樣本分佈:分析-表

    性別 萎縮 腸化 年齡分組
    輕度 中度 重度 輕度 中度 重度 青年組 中年組 老年組
    Count Count Count Count Count Count Count Count Count Count Count Count
組別 試驗組 25 12 14 16 7 10 12 13 2 15 12 10
對照組 20 11 0 0 0 0 0 0 0 10 11 10

查看激素水平分佈:圖形--圖表構建程序

 

 激素水平呈明顯的正偏態分佈,必須考慮假設檢驗方法對數據的分佈要求;

採用Bootstrap抽樣進行分析:常用經典統計學的分析方法,無一例外的需要對變量的分佈進行假定,然後才能進行相應的計算;ootstrap抽樣的基本思想是在全部樣本未知的情況下,藉助部分樣本的有放回多次抽樣,構建某個估計的置信區間,抽象地說,通過樣本得到的估計並沒有榨乾樣本中的信息,bootstrap利用重採樣,把剩餘價值發揮在構建置信區間上。

bootstrap抽樣方法:分析--比較均值--均值--因變量列表(激素水平),自變量列表(組別,性別,年齡),選項--中位數--加入“單元格統計量”,bootstrap子對話框中“執行bootstrap”

 可以觀察各個統計量95%區間差異,對某因素的影響進行分析;中位數並不重疊,可能存在統計學差異(初步分析);可以採用採用秩和檢驗進行更精確的分析:

對因變量變量變換後的建模分析:

常見的變量變換方法:1,對數轉換;2,平方根轉換;3,平方根正弦轉換sin(開方);4:平方轉化;5,倒數轉換;6,Box-Cox變換;

對於正偏態分佈,一般常用的是對數變換:分析----描述統計----P-P圖(數據符合指定分佈時,P-P圖中各點近似呈一條直線。)

將字段進行轉換後,使用:

1)分析----一般線性模型----單變量

2)將Injisu選入“因變量”列表框

3)將組別,性別選入“固定因子”列表框,年齡選入“協變量”列表框

4)“模型”子對話框,將組別,性別,年齡的主效應選入“模型”列表框

5)“選項”子對話框,選擇“殘差圖”和“缺乏擬合優度檢驗”

6)確定。

上圖,總模型p值爲0.003,說明整個模型對injisu的預測是有統計學意義的(變量之間相關的),分項來看,只有組別具有統計學意義;

秩變換分析:

當變量轉換無法解決問題時,可以使用秩變換:轉換----個案排序-----將激素水平放入“變量”列表框;

將字段進行轉換後,使用:

1)分析----一般線性模型----單變量

2)將Rjisu選入“因變量”列表框

3)將組別,性別選入“固定因子”列表框,年齡選入“協變量”列表框

4)“模型”子對話框,將組別,性別,年齡的主效應選入“模型”列表框

5)“選項”子對話框,選擇“殘差圖”和“缺乏擬合優度檢驗”

6)確定。

利用Cox模型進行分析:秩變換分析會損失一些信息,除了非參數方法外,還可以利用生存分析中的COX迴歸模型進行分析

總結:性別,年齡對激素水平未發現有影響,試驗組和對照組之間的激素水平存在明顯差異;對於同一個統計問題,可以使用多種模型進行解決,沒有正確的模型,只有更加適合的模型;當結論不一樣時,應根據模型的特點以及真實情況,判斷那種情況更接近真實;也可以使用投票策略進行確定(類似與隨機森林,選擇多數模型結果)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章