因果推理、正則化上榜:權威專家盤點過去50年最重要的統計學思想

來源:機器學習研究組訂閱

在日常生活中,統計學無處不在,每個人、每件事似乎都可以使用統計數據加以說明。隨着人類邁入大數據時代,統計學在方方面面更是發揮了不可或缺的作用。統計學思想,就是在統計實際工作、統計學理論的應用研究中,必須遵循的基本理念和指導思想。它們對統計學的發展起到了指導作用。

近日,哥倫比亞大學和阿爾託大學的兩位知名統計學研究者撰文總結了過去 50 年最重要的統計學思想,包括反事實因果推理、bootstrapping 和基於模擬的推理、過參數化模型和正則化、多層次模型、通用計算算法、自適應決策分析、魯棒性推理和探索性數據分析。除了詳細描述這些統計學思想的具體概念和發展歷程,研究者還概述了它們之間的共同特徵、它們與現代計算和大數據之間的關係以及它們在未來如何發展和擴展。研究者表示,本文旨在激發人們對統計學和數據科學研究中更大主題的思考和討論。

論文鏈接:https://arxiv.org/pdf/2012.00174.pdf

這篇論文在社區引起了熱議,圖靈獎得主、貝葉斯網絡之父 Judea Pearl 等學者紛紛轉推並發表自己的觀點。他表示:「這篇論文將因果推理列入了統計學思想之一,與芝加哥大學統計系教授 Stephen Stigler 所著《統計學七支柱》中的觀點截然不同。」

此外,需要指出的是,本文列出的 8 種統計學思想是根據經驗和閱讀文獻進行分類的,並不是按照時間先後順序或重要性進行排序。無論是在理論統計文獻,還是在各個應用領域的實踐中,這些統計學思想在 1970 年之前都有先例。但在過去的 50 年中,它們都得到了發展,並且已衍變出新的內容。下面一一闡述論文中列出的八個統計學思想。

過去 50 年最重要的統計學思想

反事實因果推理

該研究從統計學、計量經濟學、心理測驗學、流行病學和計算機科學中出現的一系列不同觀點開始,這些觀點都圍繞着因果推理挑戰展開。其主要思想是,因果識別是可能的,人們可以通過設計和分析嚴格地陳述這些假設,並以各種方式加以解決。關於如何將因果模型應用於實際數據的辯論仍在繼續,但在過去的 50 年裏,這一領域的研究使因果推斷所需的假設更加精確,這又反過來促進了針對這些問題的統計方法的研究。

因果推理方法在不同的領域有不同的發展。在計量經濟學領域,重點是從線性模型解釋因果推理 (Imbens and Angrist, 1994);在流行病學中,重點是從觀測數據進行因果推理(Greenland and Robins, 1986);心理學家已經意識到相互作用和不同的治療效果之間的重要性(Cronbach, 1975);統計學中已經有了匹配和其他方法來調整和測量治療組和對照組之間的差異 (Rosenbaum and Rubin, 1983);在計算機科學領域,已經有了很多關於因果推理的多維模型的研究(Pearl, 2009)。

這些研究中都有一個共同的主線,就是從反事實或潛在結果的角度對因果問題進行建模,這是一個很大的進步,超越了早期的評判標準,後者沒有明確區分描述性推理和因果推理。主要研究包括 Neyman (1923)、Welch (1937)、 Rubin (1974)以及 Haavelmo (1973),還有 Heckman 和 Pinto (2015)的背景介紹。

Bootstrapping 和基於模擬的推理

在過去 50 年裏,統計學的一個趨勢是用計算取代數學分析。以 bootstrap 爲例:在 bootstrap 中定義了一些估計器,並將其應用於一組隨機重採樣的數據集 (Efron, 1979, Efron and Tibshirani, 1993)。主要思想是將估計值視爲數據的一個近似的充分統計量,並將 bootstrap 分佈視爲數據的抽樣分佈的近似。在概念層面上,有人呼籲將預測和重採樣作爲基本原則,從中可以得出偏差校正和收縮等統計操作(Geisser, 1975)。

計算資源的增加使得其他相關的重採樣和基於模擬的方法也很流行。在置換測試中,通過對目標值進行隨機變換,打破了預測值與目標值之間的依賴關係,生成重採樣數據集。Parametric bootstrapping、前驗和後驗預測性檢查 (Box, 1980, Rubin, 1984)、基於模擬的校準 (Talts et al., 2020) 都是從模型中創建複製的數據集,而不是直接從數據中重新採樣。

過參數化模型和正則化

自 20 世紀 70 年代以來,統計學的一個重大變化是關於用大量參數擬合模型的思想,模型參數可能比數據點還多,並且使用一些正則化方法來獲得穩定的估計和良好的預測。關於用大量的參數擬合模型的主要思想是獲得非參數或高度參數化方法的靈活性,同時又能避免過擬合。正則化可以作爲參數或預測曲線上的懲罰函數來實現(Good and Gaskins, 1971)。

參數豐富的模型的早期示例包括 Markov 隨機場(Besag, 1974)、樣條曲線(splines)(Wahba 和 Wold, 1975, Wahba, 1978)和高斯過程(O'Hagan, 1978),然後是分類樹和迴歸樹(Breiman 等人, 1984)、神經網絡(Werbos, 1981;Rumelhart、Hinton 和 Williams, 1987;Buntine 和 Weigend, 1991;MacKay, 1992;Neal, 1996),小波收縮(wavelet shrinkage )(Donoho 和 Johnstone, 1994)、lasso/horseshoe 等其他最小二乘法的變體(Dempster、Schatzoff 和 Wermuth, 1977 年;Tibshirani, 1996 年;Carvalho、Polson 和 Scott, 2010 年),此外還有支持向量機(Cortes 和 Vapnik, 1995 年)以及相關理論(Vapnik, 1998 年) 。

所有這些模型都具有隨樣本量和參數而擴展的特徵,這些參數並不總是可以直接解釋,而只是較大預測系統的一部分。在貝葉斯方法中,可以先在函數空間中考慮先驗,然後間接導出模型參數的相應先驗。

在有足夠的計算資源之前,以上許多模型的使用都受到限制。但在圖像識別(Wu 等人,2004)和深度神經網絡(Bengio、LeCun 和 Hinton, 2015 年;Schmidhuber, 2015 年)領域,過參數化模型得以繼續發展。Hastie、Tibshirani 和 Wainwright(2015)將大部分此類工作歸化爲稀疏結構的估計,但作者認爲歸納爲正則化更爲合適,因爲它還包括適合於數據支持範圍的密集模型。這類工作大部分是在統計之外完成的,方法包括非負矩陣分解(Paatero 和 Tapper, 1994)、非線性降維(Lee 和 Verleysen, 2007)、生成對抗網絡(Goodfellow 等, 2014)和自動編碼器(Goodfellow、Bengio 和 Courville, 2016 年):這些都是用於查找結構和分解的無監督學習方法。

隨着統計方法的發展及其在更大數據集中的應用,研究人員開發了多種方法對各種擬合推斷進行精調、適應和組合,包括 stacking(Wolpert, 1992)、貝葉斯模型平均(Hoeting 等, 1999)、boosting(Freund 和 Schapire, 1997)、梯度提升(Friedman, 2001)和隨機森林(Breiman, 2001)。

多層次模型

多層或分層模型的參數會隨組變化,從而使模型能夠適應羣集採樣。縱向研究、時間序列橫截面數據、元分析(meta-analysis)和其他結構化設置。在迴歸語境中,可以將多層次模型視爲特定的參數化協方差結構,也可以視爲概率分佈,其中參數的數量與數據成比例地增加。

多層次模型可以視爲貝葉斯模型,因爲它們包括未知潛在特徵或變化參數的概率分佈。相反,貝葉斯模型具有多層次結構,具有給定參數的數據和給定超參數的參數分佈。

通用計算算法

藉助現代計算,建模方面的改進才成爲了可能。這不僅包括更大的內存、更快的 CPU、高效的矩陣計算、用戶友好的語言以及其他計算創新,還有十分關鍵的部分是用於高效計算的統計算法上的改進。

過去五十年來的創新統計算法是基於統計問題的結構而發展的。在統計學的歷史上,數據分析、概率建模和計算的進步一直會相互結合,新模型讓創新計算算法和新的計算技術打開了面向更復雜模型和新推論觀點的大門。通用的自動推理算法允許解耦模型的開發,因此更改模型不需要更改算法的實現。

自適應決策分析

從 20 世紀 40 年代到 60 年代,決策理論通常通過效用最大化 (Wald, 1949, Savage, 1954)、錯誤率控制(Tukey, 1953, Scheff´e, 1959) 和經驗貝葉斯分析 (Robbins, 1959, 1964) 作爲統計的基礎。近幾十年來,在貝葉斯決策理論 (Berger, 1985) 和錯誤發現率分析 (Benjamini and Hochberg, 1995) 中都看到了後續工作的進展。決策理論也受到了外界關於啓發式算法和人類決策偏見的心理學研究 (Kahneman, Slovic, and Tversky, 1982, Gigerenzer and Todd, 1999) 的影響。

人們還可以將決策視爲統計應用領域,統計決策分析的一些重要發展涉及貝葉斯優化 (Mockus, 1974, 2012, Shariari et al., 2015) 和強化學習 (Sutton and Barto, 2018),這與行業中 A/B 測試實驗設計的復興和工程應用中的在線學習有關。計算科學的最新進展是能夠使用諸如高斯過程和神經網絡之類的高度參數化模型作爲自適應決策分析功能的先驗,並可以在模擬環境中進行大規模的強化學習,例如創建人工智能控制的機器人、生成文本和參與圍棋(Silver et al., 2017) 之類的遊戲。

魯棒推理

魯棒性的概念是現代統計的核心,它是一種即使在假設不正確的情況下也能使用模型的思想。開發在實際情況與假設不符的情況下也能良好使用的模型是統計理論中重要的一部分。Tukey (1960)總結了該領域的早期研究,Stigler (2010)的研究總結了歷史性回顧。繼 Huber (1972)等人的理論工作之後,研究者又開發出行之有效的方法,這些方法在實踐中,尤其是在經濟學中尤爲重要,人們也對統計模型的不完善之處有了敏銳的認識。

一般而言,魯棒性在統計研究中的主要影響並不在於開發特定方法,而在於它影響了在 Bernardo 和 Smith (1994)稱爲 M-open 世界(其中數據生成過程不屬於擬合概率模型的類別)的情況下評估統計程序的思想。Greenland (2005)認爲研究者應該明確說明在傳統統計模型中不包含的誤差源。魯棒性問題與許多現代統計數據所特有的密集參數化模型有關,這更普遍地影響了模型評估(Navarro, 2018)。

探索性數據分析

繼 Tukey (1962)之後,探索性數據分析的支持者重點說明了漸近理論的侷限性以及開放式探索和通信 (Cleveland, 1985) 的好處,並且闡明瞭超越統計理論的更一般的數據科學觀點(Chambers, 1993, Donoho, 2017)。這符合統計建模的觀點,即更多的關注發現而不是檢驗固定假設。這不僅影響了圖形化方法的發展,也將統計領域從定理證明走向更開放、更健康的角度,因爲它是從科學領域的數據中學習。以醫學統計學領域爲例,Bland 和 Altman 於 1986 年發表的一篇高被引論文提出用於數據對比的圖形化方法,替代了關聯性和迴歸分析。

此外,研究人員試圖形式化定義探索性數據分析:「探索性模型分析」(Unwin, Volinsky, and Winkler, 2003, Wickham, 2006)有時被用來捕獲數據分析過程的實驗屬性,研究者們也一直致力於在模型構建和數據分析的過程中涵蓋可視化的工作(Gabry et al., 2019, Gelman et al., 2020)。

這些統計學思想之間的關聯

研究者認爲,上述這八種統計學思想之所以重要,是因爲它們既解決了現有問題,還創建了新的統計思考和數據分析方式。換言之,每一種思想都不失爲一部「法典」,其方法超越狹義的統計學範疇,更像是一種「研究品味」或者「哲學思想」。

這些統計學思想彼此之間存在着哪些關聯和交互呢?

Stigler (2016)曾說過,一些明顯不同的統計學領域背後存在着某些相同的主題。這種互聯的觀點也可以應用於最近的研究發展。

舉例而言,正則化過參數化模型可以使用機器學習元算法進行優化,反過來又可以獲得對污染(contamination)具有魯棒性的推理。這些關聯可以通過其他方式表示,魯棒性迴歸模型對應混合分佈,而混合分佈又可以被視爲多層次模型,並且可以通過貝葉斯推理進行擬合。深度學習模型不僅與一種多層邏輯迴歸有關,還與樣條曲線和支持向量機中使用的復現核心希爾伯特(Hilbert)空間相關。

此外,特定統計模型又與文中列出的八種統計學思想存在什麼聯繫呢?研究者這裏提及的是有影響力的研究工作,如風險迴歸、廣義線性模型、空間自迴歸、結構方程模型、潛在分類、高斯過程和深度學習等。如上文所述,在過去 50 年裏,統計推理和計算領域出現了許多重要的發展,這些進展都受到了文中談論的新模型和推理思想的啓發和推動。應該看到,模型、方法、應用和計算彼此結合,息息相關

最後,研究者表示可以將統計學方法的研究與自然科學、工程學中的統計應用趨勢聯繫起來。他們認爲,生物學、心理學、經濟學和其他科學領域可能出現復現危機或可復現性革命,而這些領域的巨大變化需要根據統計資料得出結論。

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章