臨牀試驗中樣本量確定的統計學考慮

樣本量確定(sample size determination),又稱樣本量估計(sample size estimation),是指爲滿足統計的準確性和可靠性(I類錯誤的控制和檢驗效能的保證)計算出所需的樣本量,它是臨牀試驗設計中一個極爲重要的環節,直接關係到研究結論的可靠性、可重複性,以及研究效率的高低。樣本量估計也是一個成本-效果和檢驗效能的權衡過程。ICHE9(1998)指出,臨牀試驗的樣本量必須足夠大,以可靠地回答研究假設所提出的相關問題;同時又不至於太大而造成浪費。樣本量的估計方法應該在研究方案中詳細闡述,包括計算樣本量所依據的參數,如方差、均數、反應率、陽性事件發生率、差值等。本文適用於確證性試驗。

樣本量估計需考慮的主要因素

在確定臨牀研究的目的之後,首先考慮試驗設計,包括對照的選擇(如標準對照、陽性對照、安慰劑對照、劑量對照等)、比較類型(如優效性試驗、非劣效性試驗、等效性試驗)、設計類型(如平行設計、交叉設計、析因設計、成組序貫設計等)、主要指標(定量、定性、生存時間)等;其次考慮統計分析方法,並提出效應量(effect size)的假定;然後根據試驗特點定義統計特徵,如統計分佈、檢驗水準(significant level)、檢驗效能(power)、單雙側和分配比例等;再應用正確的樣本量估計方法計算出樣本量;最後根據協變量、試驗中的脫落率、剔除率和依從性等具體情況進行適當調整。

1.研究目的與試驗設計

(1)研究目的

就臨牀試驗而言,在確證性研究中研究目的主要體現在有效性評價和安全性評價兩個方面。樣本量估計常用於有效性評價。

(2)比較類型及其檢驗假設臨牀試驗常用的比較類型有優效性試驗(superiority trial)、等效性試驗(包括生物等效性試驗)(equivalence trial)、非劣效性試驗(non-inferiority trial)等。下面以兩組效應量爲均數的正向指標比較爲例,設定優效、等效和非劣效的界值爲Δ,說明它們的檢驗假設與推斷結論。

優效性試驗:試驗的目的是驗證試驗組效應是否優於對照組,如果研究不設定優效界值,其檢驗假設爲:


此時,若P≤α,則可推斷試驗組療效優於對照組。等效性試驗:試驗的目的是驗證試驗組效應是否與對照組相當。如果研究設定等效界值Δ,其檢驗假設爲:


非劣性試驗:試驗的目的是驗證試驗組效應是否非劣於對照組。如果研究設定非劣效界值Δ,其檢驗假設爲:

H0:μT-μC≤-Δ;

H1:μT-μC>-Δ。

此時,若P≤α,則可推斷試驗組療效非劣於對照組。

(3)設計類型

臨牀試驗的設計模型相對比較簡單,常用的有平行設計、交叉設計、析因設計、序貫設計、羣隨機設計和適應性設計等。有關這些設計的詳細介紹可參考相關文獻。

2.主要指標

臨牀試驗的樣本量通常依據對主要指標做出相應的假定後進行估計的。在II、III期臨牀試驗中主要指標一般是有效性評價指標,上市後的IV期臨牀試驗主要指標可以是有效性評價指標,也可以是安全性評價指標,或兼而有之。如果樣本量估計應同時依據主要有效性指標和主要安全性指標,在設計時應針對有效性和安全性分別提出統計假設,逐一計算樣本量,最終樣本量取其中最大者。主要指標應在研究方案中明確定義,通常需根據專業知識確定,應是專業領域具有共識的或認可程度較高的指標,一般源於某一標準或指南,或源於專業領域公開發表的權威論著或專家共識等。主要指標不宜太多,一般只有一個。當主要指標有多個時,樣本量估計要考慮假設檢驗的多重性問題。

在定義主要指標過程中,不僅要說明指標的含義,其測量時點、測量手段以及計算方法都應註明。指標的類型要明確,這一點非常重要,因爲樣本量估計和數據分析都需要依此進行。例如,某些指標可以有定量、定性(如有效和無效)、等級(如痊癒、顯效、有效、無效)、生存時間等不同類型。對應於指標的不同類型,樣本量估計方法亦不相同。所以,方案中對主要指標的定義要具體到指標類型上。

3.效應量

效應量是樣本量估計所需的最重要參數之一,根據不同的指標類型,常見的效應量有:均數的組間差值或標準化差值,率的組間差值或比值(RR、HR)、OR,或相關係數、迴歸係數等。效應量參數的確定主要基於下述三種途徑:

(1)本項目的任何既往研究結果。即源於同一項目的預試驗、探索性試驗(I期或II期臨牀試驗)、單中心試驗的結果等作爲確定參數的依據。由於此類研究結果屬於內部證據,因此是首選途徑。

(2)基於他人的研究結果。當本項目的先前研究無法提供確切的參數數據,或尚未開展研究時,參數的確定可以以公開發表的研究結果作爲依據。由於此類研究結果屬外部證據,因此是次選途徑。若公開發表的同類研究報道不止一個,最好是經meta分析所得合併效應量作爲樣本量估計的參數。

(3)基於本試驗的預期結果。如果本試驗沒有任何之前的研究結果可以借鑑(無論是自己的還是他人的),或以往的研究數據不能得到本試驗設計所需的參數(如本試驗採用交叉設計,而以往研究數據均來自兩平行組設計的研究),可以用預期的形式進行預設,通常以廣義效應量表達。若對試驗藥物或器械有充足信心,則預期效應量較大(如設爲0.8),此時所需樣本量較小。若對試驗藥物或器械信心不足,則預期效應量較小(如設爲0.2),此時所需樣本量較大。若對試驗藥物或器械的信心尚可,則預期效應量爲中等水平(如設爲0.5),此時所需樣本量也是中等大小。

此外,對於單臂設計或配對雙臂設計,若涉及標準對照參數(或目標值)的確定,其途徑的優先順序大致爲國際標準、國家標準、行業標準(含指南等)、被權威機構認可的企業標準、外部證據(同類研究的綜合結果,如meta分析結果)。

4.統計特徵

樣本量估計需要考慮的統計特徵主要有統計分佈、檢驗水準、檢驗效能、單雙側和平衡與否等。

統計分佈:樣本量估計方法的選擇與主要指標的統計分佈假定密切相關,基於正態分佈的假定會選擇參數方法,基於非正態分佈的假定會選擇非參數方法。同樣,生存分析的樣本量估計方法會因Weibull分佈族的假定有所不同。

檢驗水準:檢驗水準也就是I類錯誤概率,用α表示,以雙側0.05的水準最爲常用。對於優效性檢驗設定單側α=0.025的情形,以及等效性或非劣效性檢驗設定雙單側的α=0.025的情形,其本質仍然是雙側0.05的檢驗水準。但在某些情況下檢驗水準的設定會有所不同。例如,爲控制整體I類錯誤概率α,涉及多重檢驗時(如定義多個主要指標),每次檢驗的名義檢驗水準α*將小於或等於α;涉及期中分析時,考慮α消耗,每次檢驗的α*將小於α。此外,對於生物等效性檢驗,習慣取雙側α爲0.1。

檢驗效能:用1-β表示,β代表II類錯誤概率。檢驗效能是指在設定的α基礎上,原假設H0爲假且檢驗結果拒絕了H0的概率。檢驗效能越高,發現差別的可能性越大,但同時所需樣本量也越大。臨牀試驗中,檢驗效能通常不得低於80%。在樣本量估計過程中,可通過對檢驗效能的敏感性分析提供不同的樣本量方案,供研究人員選擇。

單側和雙側檢驗:單側檢驗的樣本量會明顯小於雙側檢驗的樣本量。一般而言,醫學研究領域的統計檢驗約定俗成地使用雙側檢驗,如果採用單側檢驗,需要給出充足的理由。需要指出,對於一般意義的檢驗水準0.05而言,如果取單側水準爲0.025的話,其實質仍然是雙側0.05水平。

平衡或非平衡設計:所謂平衡設計,即每組的樣本量相同。在其他條件不變時,各組樣本量相同時平衡設計效率最高,即試驗所需總樣本量最小。因此,研究設計應儘可能採用平衡設計。非平衡設計是指比較組間的樣本量有明顯差別,習慣上這種差別成倍數關係,例如,新藥III期臨牀試驗,因爲安慰劑對照的療效相對可以確定,同時出於倫理考慮,安慰劑對照組的樣本量會安排的少一些,而試驗組的樣本量相對要大一些,比如是對照組的2倍或3倍。

樣本量估計原理和方法

1.樣本量估計原理

樣本量估計的方法通常是從檢驗統計量計算公式反推而來。一般地,統計推斷的效應量可認爲是給定模型參數θ的函數f(θ),用T表示f(θ)的一個無偏估計統計量,若數據來自正態分佈,或根據中心極限定理,有:


基於t分佈,則檢驗統計量服從非中心t分佈,通過迭代計算可求出樣本量,即:


當統計量T=logHR時,我們同樣可以先求出Var(T),然後代入公式(4)中計算樣本量,此時所得樣本量計算公式可拆解成一個關於所需陽性事件數(number of events)與個體發生陽性事件概率的表達式,這也是目前最常用的方法。

2.樣本量估計方法

樣本量估計方法,即樣本量的計算公式,應根據研究背景、研究假設、設計模型、主要評價指標的數據特徵等做出正確選擇。由於樣本量計算公式繁多,本文不做詳細介紹,讀者可參考《中國衛生統計》2012年至2014年連續刊發的“樣本量估計及其在nQuery和SAS軟件上的實現”系列文章(共19篇)[9]。該系列文章以樣本量估計專業軟件nQuery Advisor7.0爲依據,系統介紹常用的樣本量估計方法,給出計算公式及其權威出處,通過實例加以說明,同時還給出了SAS9.2軟件實現的程序,便於廣大讀者應用。表1列出了常用的樣本量估計方法,可看作通過統計檢驗方法正確選擇樣本量估計方法的一個索引。

樣本量估計的其他考慮

1.樣本量的調整

根據統計學方法估計出的樣本量是在給定條件下滿足臨牀試驗所需的最小樣本量。實際試驗過程中,由於病例的脫落和剔除、病例依從性差等原因,會導致可評價例數的減少。因此,需要在樣本量估計基礎上適度擴大樣本量,以保證最終的有效樣本量可以滿足最小樣本量的要求。從分析角度講,需保證最終的可評價樣本量(即符合方案數據集(per-protocol set)的例數)應大於經樣本量估計方法求得的樣本量。樣本量調整通常會考慮不大於20%的脫落剔除率,具體的脫落剔除率如何確定,將視不同的研究項目而定,確定的依據主要來自專業方面的判斷,或經由以往研究數據的meta分析爲重要參考。

當亞組分析的結果是主要療效指標時,則應保證最終的亞組可評價病例達到最小樣本量。臨牀試驗結果可能受某些預後因素(協變量)的影響,如年齡、性別、病情程度等。樣本量估計時一般不考慮預後因素,主要是因爲隨機分組可使各組間的協變量達到均衡。

2.樣本量再估計

樣本量再估計較多地用於適應性設計。適應性設計樣本量再估計常用的三種方法如下。

(1)成組序貫設計:每組的樣本量固定,每次期中分析的目的是對是否終止試驗(成功或失敗)或進入下一週期的試驗做出決策。

(2)固定期中分析:每次期中分析對參數重新進行估計,並據此對樣本量做出新的估計和調整,但不對檢驗假設進行檢驗。

(3)上述兩種方法的結合:每次期中分析既對參數重新進行估計,並據此對樣本量做出新的估計和調整;又對檢驗假設進行檢驗,以判斷是否終止試驗(成功或失敗)或進入下一週期的試驗。上述三種方法均屬於期中分析的樣本量估計問題,詳細過程可參閱文獻[9]。需要指出,基於期中分析的樣本量再估計應儘可能地在盲態下進行。

臨牀試驗方案中對樣本量估計的要求

在臨牀試驗方案中,需要對樣本量估計進行清晰和完整的闡述,應至少包含以下內容:試驗的研究假設,對照的類型,比較類型,設計模型,主要指標,將要用到的統計分析方法,參數(包括等效或非劣效界值)的來源以及依據,檢驗水準(若涉及多重檢驗或期中分析,需解釋確定檢驗水準的依據),檢驗效能,單雙側檢驗,分配比例,樣本量估計方法及其出處(列參考文獻),所用軟件及其版本,樣本量調整及其依據,各組以及各中心的樣本量分配(列表),若競爭入組需特別說明。

常見問題回答

Q1.樣本量估計有哪些專用軟件?

目前常用的樣本量估計軟件有nQuery Advisor+nTerim,PASS,DSTPLAN,G*Power,PC-Size,PS,SAS Power and Sample Size application(PSS),Stata,R。這些軟件中,nQuery和PASS是其中最常用的,它們涵蓋了幾乎所有的樣本量統計方法。下面對這些軟件做一簡要介紹。

nQueryAdvisor+nTerim:愛爾蘭Statistical Solutions公司開發的商業軟件,由nQuery Advisor 7軟件加入nTerim模塊組成,前者原先是一獨立樣本量估計軟件,後者是專門用於期中分析的樣本量估計模塊。目前最新版本爲3.0,運行於Windows平臺。該軟件同時得到美國FDA、歐洲藥品管理局、日本、韓國的官方認可,爲世界製藥企業和生物技術公司50強中的49家所使用。內容幾乎已經涵蓋了樣本量計算的所有方面。《中國衛生統計》連載的系列文獻系統介紹了常用的樣本量估計方法[9],給出了計算公式及其出處,並附有樣本量估計專業軟件nQuery Advisor 7.0的操作主界面和樣本量估計中參數設置的界面,同時還給出了SAS9.2軟件實現的程序,便於廣大讀者應用。

PASS:美國NCSS公司開發,是一款運行在Windows平臺下的商業軟件,目前最新版本爲13。類似於nQuery,它也覆蓋了幾乎所有的樣本量計算方法,其官方網站宣稱用到的統計方法已經超過了230種。DSTPLAN:是一款運行在Windows環境下的免費軟件,其本身是基於Fortran語言構造,由安德森癌症中心開發。包括的統計分析方法有t檢驗、相關分析、率的比較、2×N的列聯表檢驗,以及生存分析的差異性檢驗。

G*Power:是一款在Windows以及MacOSX環境下運行的免費軟件,由德國杜塞爾多夫大學開發。包括的統計分析方法有t檢驗、One-wayANOVA、迴歸分析、相關分析以及擬合優度分析。該軟件在用戶輸入關鍵參數後就會立即給出效應量。PC-Size:是一款運行在Windows環境下免費的DOS命令行軟件。包括的統計分析方法有t檢驗、方差分析、迴歸分析、相關分析以及率的比較。該軟件也可計算效應量。

PS:是一款運行在Windows環境下的免費軟件,包括的統計分析方法有t檢驗、卡方檢驗、Fisher確切概率法、McNemar檢驗、迴歸分析以及生存分析等。

SAS/PowerandSampleSizeapplication(PSS):該軟件運行於Windows環境,軟件附帶在整個SAS系列內隨同安裝。雖然由SAS公司開發,但包括的統計分析方法非常有限,只有t檢驗、率的比較、相關分析、迴歸分析、方差分析以及生存分析。Stata/R:Stata以及R嚴格說來應該是編程語言而不是現成的軟件。理論上只要編程得當,可以實現任何樣本量計算的統計方法。

此外,還有大量在線的樣本量估計軟件或程序,但對於其正確性和權威性難以一一做評,所以還是鼓勵示,惡性腫瘤、損傷與中毒、循環系統疾病是中年人的三大主要死亡原因,而且男性死亡人數明顯高於女性。作者認爲,第一、確實加強環境保護;第二、全社會要從社會、心理和生理的多維角度關愛中年人,使中年人具有健康的身心和良好的生活習慣,減少疾病發生;第三、加強勞動安全、駕駛安全的培訓和相關安全制度的落實,安全重於泰山,儘量減少損傷和中毒造成的死亡;第四、醫務人員要重視健康教育,防患於未然,努力做到惡性腫瘤等疾病的早發現、早診斷和早治療,提高醫療質量,延長生存期,減少死亡率。

猜你喜歡

10000+:菌羣分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組  宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

必備技能:提問 搜索  Endnote

文獻閱讀 熱心腸 SemanticScholar Geenmedical

擴增子分析:圖表解讀 分析流程 統計繪圖

16S功能預測   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在線工具:16S預測培養基 生信繪圖

科研經驗:雲筆記  雲協作 公衆號

編程模板: Shell  R Perl

生物科普:  腸道細菌 人體上的生命 生命大躍進  細胞暗戰 人體奧祕  

寫在後面

爲鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論羣,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入羣,務必備註“姓名-單位-研究方向-職稱/年級”。PI請明示身份,另有海內外微生物相關PI羣供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決羣內討論,問題不私聊,幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”

點擊閱讀原文,跳轉最新文章目錄閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章