統計學學習-Day4

配對卡方檢驗:

  • 目的:研究同一羣人在實驗前測和實驗後測是否發生了變化

  • 前提:
    1、觀測變量爲二分類變量,且兩類之間互斥
    2、分組變量包含2個分類,且相關。(當分組變量有3個及以上分類時,可使用Cochran’s Q檢驗)

  • 操作:

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

  • 結果分析:

在這裏插入圖片描述

首先,從正對角線得出的結果是,25名研究對象中有8名干預前喝酒,干預後還繼續進行喝酒的人;6名干預前不喝酒干預後還是不喝酒的的人。從非對角線(黃色背景)中可以看到干預前喝酒干預後不喝酒的人有11人;干預前不喝酒的干預和喝酒的有0人。干預前喝酒的人數佔到了76%,干預後喝酒的人數佔比下降到了32%。其中干預前喝酒的人干預後不在喝酒佔比 44%,有11個人干預後不再喝酒。而干預前不喝酒的人干預後依然都不喝酒。

在這裏插入圖片描述

當非對角線觀測人數總和<25時,p值以精確顯著性(2-sided檢驗)爲準。

  • 結果撰寫:
    如果是根據二項分佈計算McNemar檢驗的精確P值:本研究共招募了25名研究對象參與有關戒酒的干預試驗,干預前飲酒者和不飲酒者各佔76%(19列)和24%(6例)。干預後,不飲酒比例增加到68%(17例),飲酒的比例降低到了32%(8例)。11名飲酒者在干預後戒酒。採用McNemar精確檢驗發現,干預前後不飲酒者比例的差異有統計學意義,P=0.001。
    (如果是用卡方計算,最後就寫:採用校正卡方檢驗發現,…)

卡方擬合優度檢驗:

  • 目的:檢驗收集到的數據是否符合指定分佈
  • 前提:
    1、存在一個分類變量
    2、觀測值之間相互獨立
    3、樣本量足夠大,要求最小樣本量的任一預測頻數大於5.
    注意:卡方擬合優度檢驗分爲等比例和自定義比例兩種。等比例是指:被研究對象在一段時間內做某件事的概率相同;自定義比例是指:研究者在一段時間內做某件事的概率不同。比如:一個患者若在一週內去醫院就診的可能性相同,那麼就是等比例,反之就是自定義比例。
  • 操作:
    1、等比例
    在這裏插入圖片描述
    在這裏插入圖片描述

2、自定義比例:

在此處選擇總體的(或期望的)分佈比例情況:我期望的農村,城鎮,中小城市,大城市的比例爲15%、25%、40%、20%。

  • 結果解釋:
    在這裏插入圖片描述

在這裏插入圖片描述

由上圖可見0個單元具有小於5的期望頻率。單元最小期望頻率爲29.5。
然後看每一類的殘差表,其中殘差越小則表示擬合優度越好。結果顯示卡方=19.607,P<0.001,說明本研究數據不符合指定數據分佈情況。

  • 結果撰寫:
    本研究共招募197位研究對象,其中來自農村的研究對象爲33人,來自城鎮的研究對象爲74人,來自中小城市的研究對象爲59人,來自大城市的研究對象爲31人。,採用卡方擬合優度檢驗判斷這些研究對象的體型分佈是否與期望一致。結果顯示,本研究的最小預測頻數爲29.5,可採用卡方擬合優度檢驗,卡方=19.607,P<0.001,說明本研究數據不符合指定數據分佈。

比值比(OR值)

  • 目的:探索不同分組的人羣發生某件事的概率是否存在差異
  • 前提:
    1、自變量和因變量都是二分類變量
    2、觀測間相互獨立
  • 操作:
    在這裏插入圖片描述
  • 結果分析:
    在這裏插入圖片描述

如果比值>1,且置信區間不包括1,則說明男生比女生選擇創業的機率更高;反之,女生比男生的創業機率更高。若果置信區間包括1,則說明男生女生之間不存在差異。

  • 結論撰寫:
    本次研究共招募197位研究對象,其中男性116人,女性81人。與女性相比,男生選擇創業的機率不高於女性。比值比爲0.610,95%CI:0.336-1-1.110

相對危險度(2*2計算)RR值

  • 目的:想要研究發生某件危險的事與發生另外一件危險的事之間的關係。(比如想要探索幽門螺旋桿菌感染與發生消化道腫瘤之間的關係)
  • 前提:
    1、因變量與自變量均爲二分類變量
    2、各觀測間相互獨立
    3、只有特定的研究設計才能計算相對危險度,如前瞻性或回顧性隊列,隨機對照試驗。
  • 操作:
    在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

  • 結果分析:
    在這裏插入圖片描述

先通過觀察交叉表來看患有幽門螺旋桿菌的350人中有35人患有消化道腫瘤,不患有幽門螺旋桿菌的350人中僅有9人患病。由此可以初步判斷,患有幽夢螺旋桿菌的人患消化道腫瘤的風險更高。

在這裏插入圖片描述

這裏要根據需求來看相對風險值,因爲本次要研究患幽門螺旋桿菌與患消化道腫瘤的關係,所以看Yes那一列即可。結果解讀與OR值一致,可見患幽門螺旋桿菌的患者比不患有幽夢螺旋桿菌的患者患上消化道腫瘤的可能性高3.889倍。

兩個有序變量相關性的卡方檢驗

  • 目的:分析兩個有序變量之間是否有線性變化趨勢 (比如分析學歷的高低與工作兩年後的年薪等級之間的關係)
  • 前提:
    1、其中一個變量爲有序分類變量
    2、另一個變量爲有序分類變量或二分類變量
    注:趨勢檢驗可以使用Mantel-Haenszel卡方檢驗或Cochran-Armitage趨勢檢驗。M-H檢驗也稱線性趨勢檢驗或定序趨勢檢驗。M-H與C-A的區別在於,前者要求一個是有序,另一個是二分類或有序;後者要求一個是有序,另一個是二分類。
  • 操作:
    在這裏插入圖片描述
  • 結果分析:

這張表可以看簡單分佈情況
在這裏插入圖片描述

這張表觀察線性與線性組合,Sig一列爲Mantel-H檢驗結果,可見P=0.009>0.05,可知老家類型與工作地域重要程度存在線性關係。還可以繼續看pearson表,看是正向還是負向。

在這裏插入圖片描述
由此可見存在正向輕度相關。

  • 結果撰寫:
    採用Mantel-Haenszel卡方檢驗判斷老家類型與工作地域重要性是否存在線性關係。老家類型1-4,工作地域重要性程度1-5。Mantel-Haenszel卡方檢驗結果顯示,老家類型與工作地域重要性之間存在線性關係。卡方=6.736,p=0.009<0.05,Pearson相關結果顯示,R=0.185,P=0.09,說明老家類型與工作地域重要性程輕度正相關。
  • 繪製散點圖:
    在這裏插入圖片描述

把數據轉化爲頻率形式

在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

結果:

在這裏插入圖片描述

分層分析:

  • 使用原因:
    比如我們要研究某種治療措施是否會降低死亡風險。招募了200名實驗對象,一組是對照組,一組是實驗組。其中實驗組中年輕人80人,老年人20人。對照組中老年人80人,實驗組20人。經過一段時間之後對照組18人死亡(2人爲年輕人,16人爲老年人),實驗組12人死亡(8人爲年輕人,4人爲老年人)。如果我們直接計算,對照組的死亡率是18%,實驗組的死亡率是12%,則計算處理因素的RR值爲12%/18%,即0.67。認爲處理是有效的,能夠降低33%的死亡風險。
    **但是!!!**我們應該要注意到,我們的年齡和死亡之間的關係是非常密切的,年齡越大死亡的概率也就越高。那麼此時再回過頭來看我們實驗組與對照組之間的分佈就可以發現問題所在了。這類因素稱之爲混雜因素。如果我們在實驗組與對照組進行分層,在計算,可以看到實驗組當中年輕人的死亡率=8/80=0.1,對照組當中年輕人的死亡率爲2/20=0.1。同理,可計算老年人的死亡率也爲0.1。因爲各層的RR值一致,所以可以使用M-H法計算合併效應值(若不一致,我們應當分層報告效應值),再將合併後的RR值與之前做的粗RR值或OR值進行比較,若差值在0.1以上或在0.5以上,認爲調整後的RR值與粗RR值不一致(此時要結合實際情況進行判斷)。
  • 侷限性:
    若混雜因素不止一個,那麼此時分層就要非常的麻煩,若有n個混雜因素,則分層的數量則爲2的n次。同時每一層的樣本量就會很小。另外,如果是連續變量,對其進行分類就會丟失信息。

分層卡方檢驗:

  • 原因:與分層檢驗一樣
  • 操作:
    在這裏插入圖片描述

在這裏插入圖片描述

  • 結果分析:

在這裏插入圖片描述
在這裏插入圖片描述

由上面兩張圖可以看出:
男性Pearson 卡方=8.433,P=0.04<0.05, OR=2.769,95%CI:1.368-5.670,男性抽菸是引發某一種疾病的危險因素。
女性解讀同理。

在這裏插入圖片描述

上圖是採用兩種方法對於不同分層下OR值是否一致進行檢驗。P均小於0.05,可見各層級之間的OR值存在着異質性。

在這裏插入圖片描述

上圖爲分層卡方檢驗的結果,前者是後者的改進。兩個檢測結果P<0.05,可見吸菸與發生此種疾病的風險有關。此時卡方值的大小隻能推斷是否相關,不能推斷大小。

在這裏插入圖片描述

上圖的結果是認爲各層OR同質,進而合併OR值的結果,分析方法同上面分析OR值一致。

注:本次檢驗發現各層的OR值不同質因此不能合併計算OR值,需要分層報告。

  • 結果撰寫:
  1. 若層間OR值不同質,則結果描述如下:
    Test of Homogeneity of Odds Ratio結果顯示P<0.05,提示層間的OR值具有異質性,此時不宜合併OR值。因此在按照性別進行分層後,在男性中,吸菸是該疾病發生的一個危險因素,OR=2.769,95% CI爲1.368-5.607,P=0.004,即吸菸者該疾病的發生風險爲非吸菸者的2.769倍;而在女性中,吸菸對該疾病的發生沒有影響,OR=0.463,95% CI爲0.097-2.214,P=0.326。

  2. 若層間OR值同質,則結果描述如下:(本例研究不適用於此種情況,此處僅爲舉例說明)
    Test of Homogeneity of Odds Ratio結果提示層間的OR值具有同質性(P>0.05),因此在控制了性別分層因素的影響後,吸菸因素對於該疾病的發生是一個危險因素,其合併OR=1.935,95% CI爲1.065-3.519,P=0.047。
    注意:對於前述“3. 分層卡方檢驗結果”和“4. 基於Mantel-Haenszel方法估算的OR值的檢驗結果”,兩者的P值在結論上應該是保持一致的。

根據《醫學統計學》(孫振球主編)教科書上的介紹,分層分析OR值可採用Mantel-Haenszel方法進行估計,並用Mantel-Haenszel卡方檢驗的χ2統計量直接對OR值進行假設檢驗,同時採用Miettinen法計算OR值的95%可信區間,因此此處可報告Mantel-Haenszel卡方檢驗的P值0.047。
而SPSS採用的是Woolf法計算OR值的95%可信區間,並對其進行檢驗,此時P=0.030。由於兩者計算方法不同,因此P值的大小稍有差異,但其結論是一致的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章