如何正確看待

        新英格蘭醫學雜誌刊出的一篇綜述《The Primary Outcome Is Positive — Is That Good Enough?》中[1],作者認爲當臨牀試驗的主要結局陽性時,還應當考慮11個問題。(表1)

                                                                     表1. 主要結局陽性時應當考慮的問題

我們將在醫咖會微信公衆號中分幾期討論這些問題,今天我們先討論第1個。

一、“P<0.05認爲差異有統計學意義”是什麼意思?

在看文章、做研究、寫文章的過程中,我們經常會看到這樣的描述:P<0.05時,認爲差異有統計學意義。實際上,這裏的“0.05”是研究開始前指定的顯著性水平α。那麼,“P<0.05時,認爲差異有統計學意義”或者“顯著性水平α=0.05”到底是什麼意思呢?

這裏我們先簡略解釋兩個概念。

1、零假設

以比較臨牀研究中治療組和對照組用藥效果的組間差異爲例,判斷是否有統計學意義所用的統計思維與中學數學的“反證法”思維類似,即:①假設兩組沒有差異,②統計檢驗現有數據,③發現根據現有數據,“假設兩組沒有差異”這件事情成立的可能性太低,④所以拒絕“假設兩組沒有差異”,認爲“兩組之間的差異有統計學意義”。這裏的“假設兩組沒有差異”就是統計分析時的“零假設”。

2、Ⅰ類錯誤

然而,上述過程中,我們有可能犯錯誤:即如果“兩組沒有差異”這件事情是真實的,但是由於各種原因,我們根據現有數據得到的結果可能會發現“兩組之間的差異有統計學意義”。這種錯誤可以類比爲實驗室檢查中的“假陽性”,統計分析時稱之爲“Ⅰ類錯誤”,也就是零假設成立時我們錯誤地拒絕了零假設。

再來回顧前面的問題,大多數研究規定“P<0.05時,認爲差異有統計學意義”或者“顯著性水平α=0.05”,指的是如果本研究統計推斷得到的差異有統計學意義,那麼該結果是“假陽性”的概率小於0.05。顯然,這個“假陽性”概率越小,我們由樣本發現的治療組和對照組的組間差異,越有可能反應總體的真實情況。

二、多次檢驗時,“假陽性”率還是0.05嗎?

如果以顯著性水平α=0.05爲水準,對實際上成立的零假設進行n次檢驗,那麼不出現“假陽性”的概率爲(1- α)^n,至少出現一次“假陽性”的概率爲1-(1- α)^n。n=10時,1-(1- 0.05)^10 =0.40,也就是說,干預措施本來沒有差異,但10次假設檢驗中,至少有一次統計推斷有差異(“假陽性”)的概率將達到40%,這麼大的“假陽性”率讓人難以接受。且隨着n增大,1-(1- α)^n將更大。

規定顯著性水平α=0.05時,我們可以認爲P<0.05時,差異有統計學意義。但是一旦有研究遇到n次多重檢驗的問題,往往無法承受較高的“假陽性”率,因此會將顯著性水平α調低。

三、並非任何情況下α都選取0.05

新英格蘭醫學雜誌發表的一項3期藥物臨牀試驗——PARADIGM-HF[2],探討某新葯(代號LCZ696)相比依那普利,是否可以降低心衰患者的死亡和再住院風險時,將整個試驗的顯著性水平α設定爲0.05,但在三次中期分析時,則將α分別定爲0.0001、0.001和0.001。也就是說,在三次中期分析時,P值要小於0.0001、0.001和0.001,研究者才認爲兩組之間的效果差異有統計學意義。中期分析時將α值調低,目的就是降低多重檢驗時的“假陽性”率。

而另外一些研究,規定的顯著性水平會高於0.05,尤其是一些探索性研究中,研究者試圖發現創新性結果而暫時允許一定的“假陽性”風險。Lancet Oncol發表的一項2期藥物臨牀試驗[3],探討厄洛替尼聯合貝伐單抗是否可以成爲EGFR突變的非小細胞肺癌患者新的一線用藥時,就將顯著性水平α定在了0.2。也就是說,在這個試驗中,如果P<0.2,研究者就認爲兩組之間的差異有統計學意義。

可見,P<0.05並非判斷研究結果是否有統計學意義的“萬金油”。0.05只是一般情況下人爲設定的顯著性水平。

參考文獻

1. N Engl J Med. 2016;375:971-9.

2. N Engl J Med. 2014;371:993-1004.

3. Lancet Oncol. 2014;15:1236-44.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章