這是一篇文獻閱讀筆記,文獻爲:
這篇文章總結了多重比較謬誤的成因和三種主要解決方式: Benferroni’s Adjustment、Holm’s adjustment 以及Benjamini, Hochberg, and Yekutieli’s adjustment,並在考慮了多重比較偏誤的前提下對1962年以來Top Journal中提到的313個因子進行了多重檢驗,認爲5%顯著性水平下的 值臨界值至少應爲2.80,而非目前的1.96。
文章目錄
- Introduction
- The Search Process
- Factor Taxonomy
- Adjusted t-statistics in Multiple Testing
- Why multiple testing?
- A multiple testing framework
- Type I and Type II Errors
- FWER(Family-wise error rate) Adjustment
- FDR(False discovery rate) Adjustment
- p-value adjustment: Three approaches
- Summary statistics
- p-value adjustment when all tests are published(m=R)
- 主要參考鏈接
Introduction
An Intuitive Sample about Multiple Comparison Bias
在一次假設檢驗中,我們使用顯著性水平 和 值得出結論。顯著性水平 一般取0.05或0.01,可以保證一次假設檢驗中犯 I 類錯誤的概率和決策錯誤的風險小於 。
但是在 次假設檢驗中,假設 和 ,假設檢驗之間相互獨立,不犯錯誤的概率爲 ,而至少犯一次錯誤的概率高達 。舉個實際的例子,假如有一種診斷艾滋病的試劑,試驗驗證其準確性爲99%(每100次診斷就有一次false positive)。對於一個被檢測的人來說(single test),這種準確性足夠了。但對於醫院來說(multiple test),這種準確性遠遠不夠,因爲每診斷10000個人,就會有100個非艾滋病病人被誤診爲艾滋病,這顯然是不能接受的。所以,對於多重檢驗,如果不進行任何控制,犯一類錯誤的概率便會隨着假設檢驗的個數迅速增加。
Topic
跨期回報因子研究中顯著性水平的臨界值
What we do
We present a new framework that allows for multiple tests and derive recommended statistical significance levels for current research in asset pricing.
-
313 papers published in a selection of journals that study cross-sectional return patterns.回顧了研究跨期回報的313篇文獻
-
provide recommended test thresholds from the first empirical tests in 1967 to present day 提供了1967年至今實證檢驗中推薦的顯著性水平閾值
-
We present a taxonomy of historical factors, as well as definitions 建立了一個歷史因子的分類系統
數據窺視( data-snooping )是指從數據中發現統計上顯著但實際並不存在的關係,是金融分析裏面非常普遍和嚴重的一個問題。在金融分析中,因爲我們可以對同一個數據集進行無數次的實證研究,如果有足夠的時間、足夠的嘗試和足夠的想象力,我們可以不需要考慮經濟上的合理性而直接尋找金融變量統計上的關係,這樣我們幾乎能從任何數據集中推斷出任何規律。通過數據窺探,我們可以讓數據分析結果更顯著來支持自己的立場,這些行爲往往讓實驗無法重複。
Related Research
- McLean and Pontiff (2015): 股票市場異像(可能是由統計偏誤導致)
- Lewellen, Nagel, and Shanken (2010): 跨期回報研究中的統計偏誤和無效率
- Sullivan, Timmermann, and White (1999, 2001) and White (2000): 使用多重檢驗(Multiple Testing)來檢驗和校正數據窺視偏差
- Foster, Smith, and Whaley (1997), Cooper and Gulen (2006), and Lynch
and Vital-Ahuja (2012): 迴歸預測中的數據窺視偏差和變量選擇問題 - Shanken (1990), Ferson and Harvey (1999), Boudoukh et al. (2007), and Patton and Timmermann (2010): 金融文獻中多重檢驗方法的應用
- Barras, Scaillet, and Wermers (2010),Bajgrowicz and Scaillet (2012), and Kosowski et al. (2006): 研究量化交易和共同基金表現的多重檢驗
總結:在大量公司特徵、會計、金融、高頻交易文獻中普遍存在數據窺視問題,而多重檢驗是發現並緩解這個問題的一個方法。
Goal
- use a multiple testing framework to both re-evaluate past research and to
provide a new benchmark for current and future research: 使用一個多重檢驗的框架來重新評估以往文獻的準確性,併爲現在和未來的研究提供一個Benchmark - 最常見的幾種假設檢驗/貝葉斯方法/變量選擇
Limitations
- 是否應該在目前發現的所有因子的檢驗上"一視同仁"
- 閾值和金融因子的重要性在不同的經濟情形下而有所不同
The Search Process
- 目的主要在於學者們提出的市場因子、賬面市值比因子之外的各種新因子的合理性,主要基於提出新因子的理論文獻,以及第一篇提供檢驗顯著性的實證文獻
- 有時不同的文獻會針對同一因子提供不同的代理變量,我們都會納入
- 我們目的在於研究對股票回報規律有普適意義的因子,因此會忽略哪些只聚焦於特定市場、特定時間段的文獻
- 有些理論文獻提出的因子暫時沒有合適的代理變量,不納入研究範圍
- 250 Pubulished on top journals / 63 Working papers suspected being in review at top journals
- 侷限性:只看top journals/可能遺漏了那些曾經被檢驗過,但是不顯著,因此從未被髮表的因子
Factor Taxonomy
將因子分類:
Adjusted t-statistics in Multiple Testing
Why multiple testing?
Given that so many papers have attempted to explain the same cross-section of expected returns, statistical inference should not be based on a “single” test perspective. 認爲許多文獻都是在對同一段時間的跨期收益做迴歸,存在多重比較偏誤,即隨着迴歸次數的增加,犯 I 類錯誤的概率也越來越大,只要跑的次數足夠多,總有一次是顯著的。因此,對因子進行 Single Test 不再可取,需要將隨着檢驗次數增加而帶來的 I 類錯誤發生的頻率增加考慮在內。
大多文獻的研究時間段隨不盡相同,但是總有重疊的時間,如果認爲時間序列是平穩的,則時間區間理論上應該對結果並無影響
有兩種方法解決多重檢驗帶來的偏誤:
- 樣本外檢驗(Out-of-sample Validation)
- eg:McLean and Pontiff (2015) 通過這種方法排除了97個異像中的12個(本文作者認爲這個結果是低估了)
- 優點:當這種方法可行時,是一種乾淨地排除僞顯著的操作
- 缺點:不能實時使用,只能站在"事後"的視角來看,沒有時效性
- 使用一個統一的統計框架(A statistical framework) √
多重假設檢驗
顧名思義,多重假設檢驗就是多個假設檢驗。如果有 個人,那麼 個假設檢驗就是一個例子。 個假設檢驗的結果可以表示爲:
Null hypothesis is true(H0) Alternative hypothesis is true(H1) Total Test is declared significant V(假正例) S(真反例) R Test is declared non-significant U(真正例) T(假反例) m-R Total m
- m 表示假設檢驗的個數
- 表示原假設爲正的個數
- 表示備擇假設爲真的個數
- 表示實際上不應拒絕原假設,而統計檢驗拒絕了原假設的個數(Type I Error)
- 表示實際和檢驗都沒有拒絕原假設的個數
- 表示實際和檢驗都拒絕了原假設的個數
- 表示實際上應該拒絕原假設,而統計檢驗沒有拒絕的個數(Type II Error)
假如在某次實驗中拒絕原假設,表明發現了一個新的定價因子,無論實際上這個因子是真因子還是假因子,都記爲一次發現(Discovery)。R=V+S 表示發現的個數,V表示錯誤發現的個數,用Q表示錯誤發現的比例,即Q=V/R=V/(V+S)。FWER定義爲V大於或等於1的概率,即 。FDR定義爲Q的期望,即 。
由於在 m 個檢驗中,V,S,U,T 都是隨機變量,所以FDR需要用期望的形式來表示。如果R=0,則認爲Q=0。爲了包含這種情況, 通俗理解,可以認爲 。
綜上,FWER(Family-wise error rate) 爲多重假設檢驗中發現至少一個 I 類錯誤的概率,FDR(False discovery rate) 爲多重假設檢驗中 I 類錯誤的比例。針對這兩個變量,分別有 Adjusted FWER / Adjusted FDR,分別指 FWER 校正方法和 FDR 校正方法。兩類校正方法都用來控制多重假設檢驗中犯 I 類錯誤的概率,使其低於顯著性水平 。FWER 校正有多種實現,其中最經典的是 Bonferroni correction;FDR 校正也有多種實現,其中最經典的是 Benjamini-Hochberg procedure。
在一次假設檢驗中,我們使用顯著性水平 和 值得出結論。顯著性水平 一般取0.05或0.01,可以保證一次假設檢驗中犯 I 類錯誤的概率和決策錯誤的風險小於 。
但是在 次假設檢驗中,假設 和 ,假設檢驗之間相互獨立,不犯錯誤的概率爲 ,而至少犯一次錯誤的概率高達 。舉個實際的例子,假如有一種診斷艾滋病的試劑,試驗驗證其準確性爲99%(每100次診斷就有一次false positive)。對於一個被檢測的人來說(single test),這種準確性足夠了。但對於醫院來說(multiple test),這種準確性遠遠不夠,因爲每診斷10000個人,就會有100個非艾滋病病人被誤診爲艾滋病,這顯然是不能接受的。所以,對於多重檢驗,如果不進行任何控制,犯一類錯誤的概率便會隨着假設檢驗的個數迅速增加。
FWER 和 FDR 校正都可以使多重假設檢驗整體犯 I 類錯誤的概率低於預先設定的顯著性水平 。FWER 顯得較爲保守,它主要是依靠減少假陽性的個數,同時也會減少檢測出陽性的個數 TDR(true discovery rate)。而FDR方法是一種更加新穎靠譜的方法,它會對每個測試用例使用校正後的 值,達到了更好的效果:在檢驗出儘可能多的陽性結果的同時將錯誤發現率控制在可以接受的範圍。
A multiple testing framework
多重檢驗在醫學領域引起了很多關注,但是在金融學領域的發展並不大。使用了多重檢驗的文獻主要關注於Bonferroni adjustment(Boudoukh et al., 2007),而這個調整的假設太強。
-
介紹一個假定的例子(Example A)來激發一個更一般化的框架
-
將多重檢驗可能的結果進行分類(Table 2)
Panel A: 假如有100個發表的因子®,其中50個是真正顯著的。同時,學者們試了600個其他的未被髮表的因子,雖然在學者們的測試中認爲這600個因子都不顯著,但實際上其中有100個因子是顯著的、真正的因子。所以總共的因子數M是700。這其中有兩類錯誤:
-
Type I Error(False Positive) - 50個因子被錯誤地認爲是真因子
-
Type II Error(False Negative) - 100個真因子由於未達到顯著性檢驗的閾值而被忽略
在多重檢驗語境下通常都傾向於減少Type I Error,因爲Type II Error很難被觀察到。
Panel B: 在一個正式的統計檢驗框架下定義了各個變量。在因子檢驗中,通常的原假設是因子不顯著。因此,因子不顯著意味着原假設爲"真",拒絕原假設則認爲因子顯著。據此,可以定義Type I Error和Type II Error發生的頻率。
-
Type I and Type II Errors
在單個檢驗中,通常用 來代表第一類錯誤發生的概率, 也通常被稱爲"顯著性水平"。在一個多重檢驗的框架下,限制每個單個檢驗的 並不能控制總體發生誤判的概率。背後的經濟學直覺是,在所有因子都不顯著的原假設下,很有可能其中一個以 概率發生的事件導致整體顯著。因此,在多重檢驗中,我們需要一個不同於單個檢驗的衡量第一類錯誤的代理變量。
在多重檢驗情景下,外推的第一類錯誤被稱爲"聯合第一類錯誤"(Joint Occurence)。文獻中有兩種方法識別:
- 對所有的 事件進行計數。 大於 0 意味着聯合檢驗顯示的顯著性可能是錯誤的。因此, 發生的概率應該是我們需要控制的。
- 當認爲是真的樣本數 R 很大時,一個或幾個誤判是可以容許的。在這種情況下, 不再是一個合適的指標, 的期望在這種情況下更有效。
FWER(Family-wise error rate) Adjustment
至少有一個 I 類錯誤發生的概率:
FWER 衡量的是不管總的檢驗數有多少,至少發生一次 I 類錯誤的概率。比如,學者們可能會對100個因子進行測試,FWER衡量了錯誤地將至少一個假因子識別爲真因子的概率。給定顯著性水平 ,我們使用兩種已知的方法 Bonferroni 和 Holm’s Adjustment 來確保 FWER 不會超過 。
FDR(False discovery rate) Adjustment
The Fasle discovery proportion (FDP) 定義爲 I 型錯誤發生的頻率佔總的陽性觀測的比例:
False discovery rate (FDR) 則爲:
FDR 衡量了假陽性(false discoveries)在所有陽性檢測(all discoveries)中的比例。相對於 FWER,FDR相對限制要弱一些。因此,在同樣的多重檢驗中使用FDR標準往往會比FWER標準檢驗出跟多陽性結果,這是因爲FDR允許 I 類錯誤發生數量 隨着陽性樣本總數 的增長而增長,而 FWER 則不允許。
在 Table2 所述的例子中,,顯然早已到達 FWER 標準的臨界值,而實際的 FDP 已經達到 。這意味着假陽性(False Discovery)的概率FWER和期望假陽性比率(FDR)在這個例子中都非常高。相應地,FWER adjustment 和 FDR adjustment 能做的補救措施是降低假設檢驗的閾值 ,這種調整下可以使得部分假陽性觀測變得不顯著,減少 I 類錯誤。
另一方面,II 類錯誤(將真陽性觀測誤判爲隱性)在多重檢驗中也同樣重要。類似於 I 類錯誤,所有的假隱性觀測 以及假陰性在所有陰性觀測中的比例 經常用來描述 II 類錯誤的嚴重性。理想化下,我們希望同時減少I 類錯誤和 II 類錯誤。在我們的語境下,我們的策略是:
- 納入更少的不顯著的因子 (減少 I 類錯誤)
- 納入更多顯著的因子 (減少 II 類錯誤)
但是這種策略並不可行:在單個假設檢驗中,I 類錯誤和 II 類錯誤往往此消彼長。因此我們試圖尋求兩類錯誤之間的平衡。一個標準的做法是指定一個 I 類錯誤發生的概率,即顯著性水平 ,然後推導致力於最小化 II 類錯誤的檢驗步驟。
然而,在多重檢驗下,II 類錯誤的發生概率往往取決於一系列未知的參數,也因此難以衡量。爲了克服這個問題,學者們通常採用實際的 I 型錯誤發生頻率與預設的顯著性水平之間的差距作爲檢驗有效性的標準。直覺上來講,如果一個檢驗的 I 型錯誤率嚴格低於顯著性水平 ,我們可以通過提高 值的閾值來使二者變得接近。通過這樣做,根據 I 型概率和 II 型概率此消彼長的關係,II 型錯誤率理論上來說應該被降低。綜上,平衡 I 類錯誤和 II 類錯誤的最好辦法是使得實際 I 類錯誤發生概率無限接近顯著性水平。
FWER 在大樣本情況下可能會顯得過於嚴格,並導致非常有限的樣本被判定爲陽性,可能會增加 II 類錯誤的概率。在小樣本情況下,FWER 則往往是優選。
在本文300餘篇樣本的情境中,我們很難判斷這個樣本數是"大"還是"小",因此會同時提供FWER 和 FDR 的adjusted p-values。
p-value adjustment: Three approaches
提供3種最常見的 FWER/FDR Adjustments 方法:
- Bonferroni (Control FWER, Single-Step Procedure)
- Holm (Control FWER, Sequential Procedure)
- Benjamini, Hochberg and Yetkutieli(BHY) (Control FDR, Sequential Procedure)
根據它們進行 Adjustment 的方式,可以分爲兩類:
-
“Single-Step” Correction: 對於每個 p 值進行同樣的調整
-
“Sequential” Correction: 逐個調整 p 值,一種取決於整個 p 值分佈的適應性調整方法
Bonferroni’s adjustment
在 次多重假設檢驗中,每一次的原假設記爲 ,對應 值記爲 ,設定顯著性水平。
Bonferroni’s adjustment 認爲只要 ,就拒絕 。可以看出,Bonferroni’s adjustment 直接把 Single Test 的顯著性水平降低到了 。FWER 爲發現至少一個 I 類錯誤的概率,即 ,可證:
這樣就能控制多重假設檢驗整體犯 I 類錯誤的概率低於預先設定的顯著性水平 。另外,FWER Control 不需要假設所有原假設之間彼此獨立,也不需要對原假設爲真的個數做出設定。當任何一個 時,拒絕 且拒絕 {j=1,…,m}。當所有的,不拒絕。
Bonferroni’s adjustment 檢驗步驟 拒絕 1 2 3 … m
Holm’s adjustment
將檢驗 所對應的 值由小到大排列,逐步檢驗,並根據排序的大小調整每個檢驗的顯著性水平。
從最小的 開始,如果檢驗結果爲拒絕原假設,則檢驗次小的 ,以此類推,知道出現第一個 無法被拒絕爲止,則停止檢驗,並拒絕 ,不拒絕。
Holm’s adjustment 檢驗步驟 拒絕 1 2 3 … i … m
Benjamini, Hochberg, and Yekutieli’s adjustment
與 Holm 方法相似,,但是檢驗順序相反。首先將檢驗 所對應的 值由大到小排列,並根據排序的大小調整單個檢驗的顯著性水平。
其中, 是總檢驗數 m 的函數。c(m) 越大,檢驗越嚴格。 Benjamini and Yekutieli (2001)將 設定爲:
我們會討論 的這種設定以及其他設定。與 Holm 方法不同,BHY 方法對 值的檢驗是由大到小的。從最大的 開始檢驗,如果不能拒絕原假設,則檢驗次大的 ,直到出現第一個 可以被拒絕爲止,並認爲不能拒絕 ,可以拒絕。
BHY adjustment 檢驗步驟 拒絕 m m-1 m-2 … i … 1
一個集合三種調整方式的例子:
Example A 與三種調整方式
Summary statistics
本文統計的發表(以及工作論文中)的316個因子,大部分將1.96作爲5%顯著性水平的臨界值。
p-value adjustment when all tests are published(m=R)
現在將三種調整方法應用於316個因子中。
- 將 值轉換成 值
- 基於轉換得來的 值分別進行 3 種調整,得到 benckmark 的 值
- 將 benchmark 值轉回 值
選擇將 (Holm, FWER) 的顯著性水平 定爲 5%,將 (BHY, FDR) 的顯著性水平定爲 1%。
Figure 3 給出了 3 套 benchmark 值,Bonferroni 和 Holm Adjustment 的 benchmark 值都隨着多重檢驗次數 的增大而單調增加。對於 Bonferroni Adjustment,benchmark 值從1.96開始,一直增加到2012年的3.78,到2032年可能會增加到4.00,而在 Singer Test 中其 值分別爲 0.02% 和 0.01%。Holm 的 值總是低於 Bonferroni 值,這與 Bonferroni 傾向於拒絕陽性結果是一致的。
綜上,如果將多重比較偏誤考慮在內,我們認爲 值在5%顯著性水平下的臨界值至少應爲2.8,這一臨界值在 SIngle Test 下的顯著性水平爲 0.5%。
爲了看出多重檢驗方法的優越性,在 Figure3 中標出了代表性的一些因子。在這些因子中, HML,MOM,DCG,SRV,MRT在各種類型的 值調整下均是顯著的。EP,LIQ,CVOL有時顯著,其他的都不顯著。
The dark crosses mark selected factors proposed by the literature. They are MRT
(market beta; Fama and MacBeth 1973), EP (earnings-price ratio; Basu 1983), SMB and HML (size and book-to-market; Fama and French (1992)), MOM (momentum; Carhart 1997), LIQ(liquidity; Pastor and Stambaugh 2003), DEF (default likelihood; Vassalou and Xing 2004), IVOL (idiosyncratic volatility; Ang et al. 2006); DCG (durable consumption goods; Yogo 2006),SRV and LRV (short-run and long-run volatility; Adrian and Rosenberg 2008), and CVOL (consumption volatility; Boguth and Kuehn 2012). t-statistics over 4.9 are truncated at 4.9.
Concerns:
- 因子在不同時間發現,當時所用的檢驗方法也不盡相同
- 理論上來說,應該是最新樣本、同樣檢驗方法
Alleviate this concern:
- 將樣本限定於2000年後發現的因子
- 限定使用 Fama-MacBeth 檢驗方法的因子
- 要求因子檢驗應該跨越 1970-1995,並且至少控制了 Fama-MacBeth 三因子
經過以上處理,篩選出了124個因子,截止到2012年,Bonferroni 和 Holm 在5%顯著性水平下的 值分別爲3.54和3.20。BHY在 1% 和 5% 顯著性水平下的 值分別爲3.23和2.67。顯然,這些 值小於全樣本下的 值。
總之,我們在多重檢驗時總是需要更高的 值臨界值。