現代統計的思想飛躍:過去、現在到未來(伯克利丁鵬博士萬字長文)

↑↑↑點擊上方藍字,回覆資料,10個G的驚喜


   
   
   
本文 約12400字,建議閱讀 10+分鐘 
本文將回顧統計因果推斷的歷史背景,評述中國因果推斷研究的現狀,並且大膽推測它未來的發展前景。

轉載自《數學文化》2021/第 12 卷第 2 期。已獲得原刊和作者授權。

引言


探求事物的原因,是人類永恆的精神活動之一。從古希臘的哲學到中國先秦的詩歌,都充滿了對原因的追問和對因果關係的思考。比如,亞里士多德就在《物理學》(Physics)和《形而上學》(Metaphysics)兩書中反覆強調,我們只有知道了事物的原因,才能算真正理解這個事物。又如,屈原在《天問》開篇,就追問日月星辰運行的原因。

長期以來,人們一方面好奇地追問原因和結果的關係,一方面又苦於這些概念的模糊性。於是,這些話題在很長一段時間都僅僅侷限在哲學和文學的範圍內。精確地描述因果關係,尤其是用數學的語言來描述因果關係,則是非常近代的事情了。這一項思想飛躍,得益於現代統計學的發展。統計學家稱之爲“因果推斷”(causal inference)。雖然因果推斷在現代統計學的萌芽階段就已經產生,但是它的發展並非一帆風順:它長期被主流忽視、懷疑甚至攻擊。直至最近四十年,尤其是最近十年,它纔得到了廣泛的認可和大力的研究,成爲當今主流的研究方向之一。在最近的一篇文章中,Andrew Gelman 和 Aki Vehtari 評選了過去五十年中,統計學最重要的八個想法,排名第一的就是因果推斷[1]。當今世界,很多年輕的學者加入了因果推斷的研究,他們來自統計學、經濟學、社會學、政治科學、教育學、流行病學、計算機科學、哲學等等領域。毫不誇張地說,統計因果推斷的研究迎來了它發展的黃金時代。


本文將回顧統計因果推斷的歷史背景,評述中國因果推斷研究的現狀,並且大膽推測它未來的發展前景。


哲學基礎:因果推斷何以成爲可能?


亞里士多德《 物理學》的一個英譯本。這本書的 Book II 3 的開篇寫道:“Knowledge is the object of our inquiry, and men do not think they know a thing till they have grasped the 'why' of it (which is to grasp its primary cause)”,翻譯成中文就是,我們探索的目標是知識,只有掌握了“爲什麼”,纔算真正理解一個事物,即,掌握該事物的根本原因。
人們常常問關於原因和結果的問題。比如,某人死於肺癌,是不是因爲他常常吸菸導致的?比如,我感冒症狀減輕了,是不是因爲服用了維生素 C 片導致的?比如,大學教育是否能夠提高收入水平?類似的問題,充滿了我們的日常生活。
但是,這些看似直接了當的問題,卻不容易回答。比如,有人吸菸,卻沒有得肺癌;有人不吸菸,卻得了肺癌。比如,我可能僅僅喝白開水,感冒也會自己消失。比如,有人沒有上大學,卻做生意發了大財。當然,有點概率論常識的人很容易意識到,這些事件都帶有隨機性。從經驗中,我們可能觀察到吸菸的人更可能得肺癌;服用維生素 C 的人,平均來說,自我感覺感冒恢復得更快;上過大學的人平均收入更高。但是,這些統計上的“相關關係”是否就是“因果關係”呢
大部分西方哲學家都認爲因果關係是一條本質的、似乎毋庸置疑的定律。但是,蘇格蘭哲學家大衛• 休謨(David Hume, 1711-1776)曾經拋出了一條驚人的論點。簡言之,他認爲人類僅僅憑經驗,只能認識事物之間恆定的前後相繼關係(constant conjunction),並不能認識任何因果關係。很多哲學家都努力迴應休謨的質疑,因爲若是承認休謨是對的,那麼知識何以成爲可能?若人類的知識僅僅是經驗性的前後相繼關係,那麼人類似乎沒有擁有任何“心智的榮耀”[2]。


休謨的名著《人性論》對哲學史產生了深遠的影響,他指出了歸納推理的缺陷,認爲我們對因果關係的信念僅僅來自於習慣(habit)和傳統(custom)。


哲學家們對休謨的迴應似乎都是徒勞的。我在學生時代曾經上過鄧曉芒教授“康德哲學”的課, 他就直言,休謨是駁不倒的。的確,休謨這樣的徹底的懷疑論者,是無法駁倒的。我回顧休謨的高論,並非想賣弄哲學史,因爲休謨是繞不開的:無論何時何地,只要談及因果推斷,就可能有人引用休謨的論點質疑你問題的合理性。也正是因爲休謨這種近乎詛咒似的言論,使得因果推斷的數學化步履維艱。


然而,上個世紀統計學的幾項輝煌成果改寫了思想史。如今人們已經不再羞於討論因果關係,統計因果推斷的語言,深入到了幾乎所有的應用領域。這些成果也許並沒有完全解決休謨的問題,但是它們給出了因果關係新的思考方式和推理框架。下面,我將分三部分回顧歷史。


統計學中“哥白尼式的革命”:內曼的“潛在結果”模型


1923 年,耶日• 內曼(Jerzy Neyman, 1894-1981) 還是波蘭華沙大學的博士生,他的畢業論文是“概率論在農業實驗中的應用”[3]。在這篇論文中,他提出了用於因果推斷的“潛在結果”(potential outcomes)的數學模型,並將它和統計推斷結合起來。他的想法非常自然,數學結構也很簡單。下面簡單地回顧一下。


年輕時的內曼。內曼是加州大學伯克利分校統計系的創始人

(照片由該系提供)


以農業實驗爲例,考慮  塊田作爲實驗的對象,實驗者想檢測兩種肥料對於產量的影響。用  表示第  塊田,  和  表示如果用肥料  和肥料  分別對應的第  塊田的產量,那麼  就是肥料  相對於肥料  對第  塊田產量的因果作用。實驗者隨機地分配肥料  或者肥料  到第  塊田,所以最終我們要麼觀測到  ,要麼觀測到  ,不可能同時觀測兩者。顯而易見,在這個模型下,因果推斷的本質困難就是無法同時觀測  和  ,也就無法直接觀測到  。觀測單個的  太困難,退而求其次,我們可以考慮研究它的平均數:



這個  通常被稱爲平均因果作用(average causal effect)。這可能是因果作用最簡單的定義了。到此爲止,內曼引入了一些數學記號來定義“因果作用”。也許讀者會覺得這平平無奇,無非就是  和  。但是,這些記號將開啓一扇窗,迎接新思想的曙光。


潛在結果  和  ,以及平均因果作用  ,在某種意義上,都是假想的數字。僅有這些定義,還不能說明這個模型的現實意義。問題的關鍵是:我們能否根據觀測到的數據推斷  ?內曼給出了肯定的回答。在隨機化實驗下,第  塊田接受肥料  或者肥料  是完全隨機的。用  表示第  塊田接受肥料  ,用  表示第  塊田接受肥料  。隨機化實驗固定接受肥料  和肥料  的田的總數,分別是  和  ,對應的  這個向量是  個  和  個  的隨機置換(random permutation)。如果第  塊田接受了肥料  ,那麼我們觀測到的產量就是:




這個恆等式似乎顯而易見:從數學上講,它無非說明,當  時,  ;當  時,  。但是,我在和朱迪亞•珀爾(Judea Pearl)交流時,他認爲這是因果推斷最重要的恆等式,因爲它聯繫了左邊我們能夠觀測到的結果和右邊的潛在結果。


最終能夠被觀測的數據是:



一個顯而易見的估計量是:




它是接受肥料  和肥料  下,平均結果的差值。內曼證明了  是平均因果作用  的無偏估計(即  的期望是  ),計算了這個估計量的方差,討論瞭如何估計這個方差,還提出了一個基於  的中心極限定理的置信區間(即這個區間以指定的概率蓋住真值   )。最後一步的中心極限定理在內曼的原文僅僅是一個直覺的證明,一直到了 Paul Erdos, Alfred Renyi 和 Jaroslav Hajek 工作的出現,這類中心極限定理的證明才被嚴格化[4]。


上面僅僅討論了一個最簡單的數學結構:兩個組的隨機化實驗中的因果推斷。現實中的隨機化實驗豐富多彩,如何在各種隨機化實驗中做因果推斷取決於具體的實驗設計方案。內曼本人於 1935 年在英國皇家統計學會宣讀的論文,討論了隨機區組設計(randomized block design)和拉丁方設計(Latin squares design)的因果推斷,引發了包括羅納德•費希爾(Ronald Fisher) 在內的統計學家的激烈爭論。


同時期,費希爾對隨機化實驗進行了深入的研究,雖然他沒有使用內曼潛在結果的記號,但是因果推斷始終是他思考的對象。隨後的幾十年,隨機對照實驗(randomized controlled trial ;RCT)成爲美國食品藥品監督管理局批准新藥的黃金標準。最近二十年,大量的隨機化實驗出現在社會科學中,用來研究複雜社會問題中的因果關係。比如,麻省理工學院和哈佛大學的三位經濟學家,Abhijit Banerjee, Esther Duflo 和 Michael Kremer,因爲用實驗的方法研究發展經濟學,獲得了 2019 年的諾貝爾經濟學獎。


內曼生前對自己在統計假設檢驗方面的奠基性工作頗爲自豪,認爲那是統計學中“哥白尼式的革命”(Copernican Revolution)[5]。他並未預料他在因果推斷的奠基性工作,也將產生深遠的影響。這個影響則是由唐納德•魯賓(Donald Rubin)開啓的。


統計學的拓荒者:魯賓關於觀察性研究中的因果推斷的研究


從直覺上,也許大家不會對隨機化實驗中的因果推斷感到驚奇。畢竟隨機化實驗保證了兩個組在平均意義下是相似的,那麼他們之間的區別就可以歸因於不同肥料對產量的因果作用。但是,現實的統計問題,很多數據收集並非源自隨機化實驗——這類研究通常被稱爲觀察性研究(observational study)。


比如,如果要研究吸菸和肺癌的因果關係,基本的倫理不允許我們隨機地讓一部分人抽菸、讓一部分人不抽菸。再如,研究大學教育對收入的影響,我們不能隨機地讓一部分人上大學、讓一部分人不上大學。很多流行病學和社會科學的問題,本質上一定是觀察性研究,人們也迫切地想從這些觀察性研究中獲得關於因果關係的知識。


雖然潛在結果模型成功地數學化了隨機化實驗中的因果推斷,但是它長期並未用於觀察性研究——內曼本人是持懷疑態度的,因爲缺乏隨機化,觀察性研究有太多複雜性,比如抽菸的人和不抽菸的人,可能就是兩羣完全不同的人,不具有可比性。雖然他從未嘗試用他的潛在結果模型分析觀察性數據,但是他間接地啓發了一些更加有冒險精神的學者。其中一人就是魯賓[6]。


魯賓教授正在作報告
(截屏自https://www.youtube.com/watch?v=N4tQC3elGK4)


魯賓認爲,觀察性研究也對應着一個假想的隨機化實驗,因此內曼的潛在結果模型可以用來定義一般的因果作用。這裏我們考慮一般的問題,不再侷限於農田、肥料和產量。用    表示個體   ,它的觀測結果    有兩個潛在結果   和   ,分別對應兩個處理水平,一般來說   被稱爲“處理”(treatment),而 0 被稱爲“對照”(control)。每個個體    有一個二值的處理水平    和一些處理前的協變量   。一個具體的例子是:


  • : 個體    吸菸與否的指示變量;
  • : 個體    是否得肺癌的指示變量;
  • : 個體    的年齡、性別、教育、收入、家庭病史等等,統計學中稱它們爲協變量(covariates)。


假設是獨立同分布的隨機採樣而來,我們關心的參數是如下的總體平均因果作用:



魯賓給了一個關於   的因果推斷的充分條件:給定協變量   ,潛在結果  和 處理變量    條件獨立。


魯賓稱這個條件爲“可忽略性”(ignorability)。這個條件還有很多其他名字:流行病學家常常稱之爲“無混雜性”(unconfoundedness);經濟學家常常稱之爲“可觀測的選擇機制”(selection on observables)。在可忽略性下,我們可以通過簡單的數學推導得到下面的結果:



爲了簡單起見,上面的公式假設 X 是離散的隨機變量;一般化的公式可以同理得到。上面的推導僅僅用到了最基本的概率法則:第一步是全概率公式;第二步由可忽略性要求的條件獨立性得到;第三步根據    將    替換成   或者   。這個公式的意義在於,最左邊的平均因果作用   的定義依賴於不可以完全被觀測的潛在結果,最右邊的量僅僅依賴於可以觀測的變量  的聯合分佈。


用一個技術性的術語來描述上面的公式,就是,基於觀測數據,平均因果作用是可識別的(identifiable)。直觀上,我們可以用觀測數據構造平均因果作用的估計量。比如,我們可以擬合    關於  的統計模型,則可以進一步根據上面的公式估計  .


我們還可以證明如下的公式:




其中   是處理的指示變量給定協變量的條件概率。這個公式也有比較直觀的解釋:處理組和對照組的個體並非完全隨機選擇的,我們需要根據他們入組的概率進行調整。Paul Rosenbaum 和魯賓在他們1983 年的 Biometrika 文章中指出,  在觀察性研究的因果推斷中, 發揮着至關重要的作用,他們把這個條件概率稱爲“傾向得分”(propensity score)。


這個公式有類似的、不平凡的意義:右邊的量僅僅依賴於可以觀測的變量  的聯合分佈。一旦擬合了    關於    的統計模型,我們可以得到   的估計,則可以進一步估計  。這個估計方法涉及到了用條件概率的逆進行加權,所以在文獻中它也被稱爲“逆概加權”(inverse probability weighting ;IPW)。


Rosenbaum 和魯賓的這篇文章是 Biometrika 這個雜誌創刊以來引用率最高的兩篇文章之一7。在它發表後的三十多年裏,引起了很多理論統計學家和應用統計學家的興趣,他們提出了很多推廣的、更加精緻的理論和方法,這些理論和方法被用在流行病學、經濟學、政治科學等諸多學科的研究中。


費希爾否定吸菸導致肺癌


雖然內曼的因果推斷的文章爲老一輩的統計學家所熟知, 但是在很長一段時間它幾乎銷聲匿跡了。它不僅僅不在觀察性研究中被使用,也不在隨機化實驗中被使用。從上個世紀七十年代開始,魯賓寫了一系列文章告訴大家,潛在結果是思考統計因果推斷的有力武器,但是他的文章起初並不被統計雜誌所接受。多年以後,他這些在當時看來離經叛道的文章使他成爲名副其實的統計學的拓荒者。


魯賓還有很多其他關於因果推斷的研究,這裏就不再深入敘述;更多精彩的細節,可以在他的專著中找到[8]。爲了引入下一部分的內容,我需要對魯賓的工作進行恰當的批判。上面介紹的理論有兩個致命的問題。第一個問題是,處理    和結果    之間的先後順序是固定的,一前一後。但是, 很多實際問題可能存在    和    同時產生,或者兩者之間有動態關係的情況。魯賓的這個簡單模型,無法討論這個問題。在計量經濟學中,這被稱爲“聯立方程模型”(simultaneous equation model)。


第二個問題是,可忽略性假定的合理性如何判定?這個條件獨立性不可能被觀測數據驗證,那麼我們如何能相信由它導出的數學結果呢?費希爾曾經質疑吸菸導致肺癌的研究,他認爲,可能存在一個基因,它既導致人更容易吸菸,也導致人更容易得肺癌,所以我們看到的吸菸和肺癌之前的相關性可能是虛假的因果作用。如果我們遺漏掉了關於這個基因的信息,那麼魯賓要求的可忽略性就不成立。


第一個問題不太容易有簡單的解答。珀爾試圖回答第二個問題。簡言之,回答第二個問題,需要更多的關於數據生成機制的知識,而圖模型是描述數據生成機制的一種有力工具。他提出了新的因果推斷的範式,在某些條件下重新推導出了魯賓的結果,並且得到了新的結果。


人工智能的“因果革命”:珀爾對圖模型的因果解釋


珀爾工作的雛形是圖模型。直觀上,這種模型用圖來刻畫條件分佈,尤其是變量之間的條件獨立性[9]。很多統計學家非常習慣用一個有向無環圖 (directed acyclic graph ;DAG) 來表示數據的生成機制。珀爾創造性地賦予了它因果關係的解釋,並給了一系列運算法則。


爲了描述珀爾的因果圖理論,我們需要一些圖的基本語言。一組隨機變量  形成一個 DAG ,每個節點對應着一個隨機變量。我們用  表示和節點  緊鄰且處於箭頭上游的變量集合(parent node),這個集合可能爲空集。DAG 中變量的聯合分佈可以分解成:




一個 DAG 的例子


考慮上圖中的 DAG。上面的聯合分佈的公式具體化成:



用上面的圖,如何思考因果關係的問題呢?珀爾引入了 do 算子,表示干預某個隨機變量到某個值,這類似我們在實驗中控制某個變量。我先給一般的公式,再給具體的例子。一般地:



上面等式的左邊定義的聯合分佈對應着一個新的DAG :在原來的 DAG 上強制    取   ,並且刪除所有指向    的邊(由於我們強制    取   ,那麼   指向    的邊不再起作用)。等式的右邊展示了這個新 DAG 的聯合分佈和原始 DAG 聯合分佈的關係。從左邊的聯合分佈,我們可以推出邊緣分佈,比如:



他們兩者的差,度量了干預    在兩個不同的值,   分佈的變化。我們可以用這兩個邊緣分佈計算出對應的期望:



他們之間的差,就是    對    的平均因果作用。這就是在因果圖下,用 do 算子定義的    對    的平均因果作用。一個至關重要的點是:



即 do 算子和通常的條件概率在一般情況下是不同的。這也說明了,僅僅用傳統概率論的語言,不足以定義因果作用。內曼和魯賓用潛在結果,珀爾則用 do 算子。


來看一個具體的例子。從上面的 DAG 我們可以得到:



從這個聯合分佈積分,我們可以得到邊緣分佈  。類似可得  。進一步可以計算    對    的平均因果作用。但是這個例子的趣味性還不夠,因爲上面的計算公式要求我們觀測到所有變量的聯合分佈。


珀爾給出了一些更加有趣的結果:某些情況下,我們並不需要觀測到所有的變量,也可以識別因果作用。下面用上面的 DAG 作爲例子,解釋他提出的“後門準則”(backdoor criterion)和“前門準則”(frontdoor criterion)。更一般的數學結果需要更多的術語和技術細節;感興趣的讀者可以參見珀爾的文章和專著[10]。


後門準則


根據珀爾的理論,要研究    對    的因果作用,我們無需觀測所有的變量,僅僅觀測  即可。直觀上,   阻斷了從    到    的所有“後門路徑”:




指向    的、看似後門路徑但是有“   ”這種結構的路徑  ,並不算成真正的後門路徑。珀爾證明,僅僅用  的聯合分佈,我們就可以表示:



類似有   的公式,從而有如下的平均因果作用的公式:



若將   ,   ,    換成   ,   ,   ,那麼上面這個公式和在潛在結果下假定可忽略性推導出來的平均因果作用的公式一模一樣。


魯賓和珀爾的理論至此殊途同歸。爲了研究兩個變量之前的因果關係,我們需要觀測他們的“共同原因”(common cause),即,那些既影響原因又影響結果的變量。否則,魯賓認爲可忽略性不成立,而珀爾認爲後門準則的條件不成立。


前門準則


珀爾的後門準則並沒有給統計學家帶來很大的驚喜,因爲他給的公式在形式上並不是新的。但是,他的前門準則卻讓很多人喫驚。根據前門準則,我們僅僅需要觀測  的聯合分佈,就可以識別    到    的因果作用。直觀上,   阻斷了所有從    到    的“前門路徑”;另外,   到    沒有後門路徑,   到    的後門路徑都被    阻斷了。在這些約束下,珀爾證明了下面的前門準則公式:


珀爾和他的暢銷書《爲什麼》
圖片來自:https://momentmag.com/author-interview-judea- pearl/


這個公式乍看有些奇妙,甚至難以置信。或許下面的直觀解釋對理解這個公式何以成爲可能有所幫助:


(a)    到    的因果作用是可以識別的,因爲他們之間沒有後門路徑;

(b)    到    的因果作用是可以識別的,因爲他們的後門路徑被    阻斷了;

( )    到    的因果作用僅僅通過    產生,因此,   到    的因果作用可以理解成    到    的因果作用和    到    的因果作用的“乘積” 。


珀爾在他1995 年的 Biometrika 文章中給出了上面的和其他更一般的結果。他的文章引發了衆多統計學家的討論,當時大部分統計學家都保持懷疑甚至否定的態度,因爲他的理論要求一個完全已知的圖,這對大部分應用統計問題來說,是不切實際的。但是,珀爾的因果圖,作爲理論工具,對大家思考因果關係有很大的幫助。即使它不能直接用於數據分析,不少統計學家也認爲他的理論有助於指導數據分析。珀爾由於這項工作於 2011 年獲得了計算機科學的最高獎——圖靈獎。


中國因果推斷的研究


從古希臘開始,西方的哲學家似乎就鍾情於因果關係的討論。這種傳統一直流傳至今。愛因斯坦曾說,西方科學的發展以兩個偉大的成就爲基礎:一是希臘哲學家發明的形式邏輯體系,二是通過系統的實驗尋找因果關係。前者集中體現在歐幾里得幾何學中,後者肇始於文藝復興時期,以伽利略爲代表。


中國的文學作品,如屈原的《天問》和辛棄疾模仿而作的詞《木蘭花慢•可憐今夕月》,有一些對自然現象很感性的追問。佛教也有因果循環的理論。但是這些都沒有和科學發生緊密聯繫。到了近代,中國學者受到了西方哲學的影響,也開始關注這個問題。比如,嚴復先生於1902 年翻譯了約翰• 穆勒(John Stuart Mill)的名著《穆勒名學》[11],其中卷下第五章是“論因果”、第七章是“論觀察試驗”[12]。


又如,洪謙先生師承奧地利邏輯實證主義學派(logical positivism)的莫里茲• 石裏克(Moritz Schlick),於1934 年在維也納大學完成博士論文,題爲“現代物理學中的因果律問題”。再如,金嶽霖先生也對休謨和穆勒的哲學有獨到的見解。到了現代,越來越多的中國哲學家也參與了有關因果關係的話題的討論。


屈原的《天問》反映了中國古人對自然和歷史的好奇心(圖片來網絡)


歐美的統計因果推斷研究有很早的萌芽,比如內曼在1923 年的論文,又如 Jerome Cornfield 等人於 1959 年關於吸菸和肺癌因果關係的研究,再如 William Cochran 對觀察性研究的探索。但是,很多其他的統計學家則對因果推斷充滿了懷疑甚至敵意;僅有的這些早期研究也很零散、不成體系。魯賓在 Cochran 的影響下,系統地研究因果推斷,用數學的語言來描述一些應用統計學家已知的直覺和很多大家未知的奧妙。


他在對因果推斷充滿敵意的氛圍中,艱難地發表了一系列文章,堅持進行這方面的研究,培養了幾代因果推斷的學者。哈佛大學一直是因果推斷研究的中心,這種狀態持續到魯賓退休、受聘到清華大學丘成桐數學中心。現在,美國各大統計系都有因果推斷的研究者。在中國,北京大學數學科學學院的耿直教授,是國內統計因果推斷研究的先驅,早在上世紀九十年代因果推斷還是冷門話題的時候,就開始相關研究,堅持了三十多年,親歷了因果推斷從冷門發展成熱點的過程。


在美國,魯賓和珀爾學派相互批評對方的研究範式;但是在中國,耿直的研究整合了魯賓和珀爾的研究範式,兩者並行而不悖,在此基礎上,產生了風格獨特、思想深刻的研究成果。他曾應邀在國際工業與應用數學大會( International Congress on Industrial and Applied Mathematics, 2011)作一小時大會報告。另外,耿直還培養了很多年輕的、從事因果推斷研究的學者,他們在國內外統計系擔任教職,並且活躍於國內和北美的統計界,成爲若干主流雜誌非常重要的貢獻者和這個領域的引領者。下面我簡單評述一下耿直教授的一部分研究成果。


學術界的“四世同堂”:耿直(右二)、學生郭建華(左二,東北師範大學副校長),學生的學生朱文聖(右一,東北師範大學數學與統計學院副院長),學生的學生的學生王鵬飛(左一,東北財經大學講師)

混雜因素


統計學裏有個很有名的 Yule-Simpson 悖論:由於忽略某個變量,使得兩個變量間的相關關係出現逆反現象。例如,某藥對男性有效,對女性也有效,但是合併男和女後,發現該藥對總體無效。這個悖論與前面休謨的質疑有些聯繫,即,從經驗歸納不出因果關係。在這個悖論中被忽略的那個變量,被稱爲混雜因素(confounder)。它是因果推斷的關鍵。前面魯賓的可忽略性也被稱爲無混雜性,即排除了未觀測的混雜因素,他的理論才成立。


因果推斷需要關於混雜因素的假定,而判斷某個變量是否是混雜因素,又需要關於因果關係的假定,這似乎有點循環論證。因此,確定什麼是混雜因素是非常困難的。耿直探討混雜因素的定義,提出了各種判斷混雜因素的條件。其中一個結果是:如果不需要關於因果關係的假定,可以判斷一個變量不是混雜因素,但不能確定一個變量是混雜因素。


珀爾在《爲什麼》(The Book of Why)中寫到,混雜因素問題的完整解決方案是因果革命的主要亮點之一。他聲稱利用因果圖可以完美解決判斷混雜因素的問題。但是,因果圖常常是未知的,應該是因果推斷的目標,而不是前提條件。耿直的研究,在一定程度上彌補了珀爾研究的缺陷。這一系列文章發表在統計學頂級期刊 Journal of the Royal Statistical Society, Series B 上[13]。


替代指標悖論和準則、統計和因果關係的傳遞性



替代指標悖論的圖模型。此圖表示一個隨機化實驗中,“吃藥與否”是隨機化的,所以和“未觀測的變量”都獨立,但是這些“未觀測的變量”可能同時影響“替代指標”和“終點指標”。即使“吃藥與否”對“終點指標”沒有直接的影響,替代指標悖論也會發生:“吃藥與否”對“替代指標”有正作用,“替代指標”對“終點指標”有正作用,但是“吃藥與否”對“終點指標”的作用卻是負的。這個悖論類似於前面提到的 Yule-Simpson 悖論, 它的關鍵是存在“未觀測的變量”同時影響“替代指標”和“終點指標”。如果“吃藥與否”對“終點指標”有直接的影響,那情況則更復雜,悖論更加不可以避免。注意,這個圖和前面提到的“前門準則”有本質的不同。


在科學研究中,由於終點指標很難觀測,所以常常選擇替代指標。例如,在艾滋病的臨牀試驗中,關心的終點指標是患者的生存壽命,但是需要等待很長時間才能被觀測到,因此,有一些研究採用免疫力細胞 CD4 數目作爲替代指標,藥物能提高 CD4 數目就被認爲是有效的。在深入研究了 Yule-Simpson 悖論的基礎上, 耿直教授發現了新的悖論,並稱其爲“替代指標悖論”:雖然新藥對替代指標有正的因果作用, 替代指標對終點指標也有正的因果作用,但是新藥對終點指標可能有負的因果作用。


這項成果不僅有理論價值,而且對醫學研究也有指導意義。有一本書《致命的藥物》(Deadly Medicine)報告了一個真實的案例。醫生的常識是,心律失常是猝死的危險因素,因此他們將糾正心律失常作爲替代指標。一種新研製的藥物能有效糾正心律失常,於是獲得了美國食品藥品監督管理局的批准。令人驚訝的是,該藥物增加了數萬人猝死,超過越南戰爭中美國士兵的死亡人數。這就是替代指標悖論的現實後果。幾位傑出的統計學家,Ross Prentice, 唐納德• 魯賓,Steffen Lauritzen[14], 分別都提出了關於替代指標的準則,不過他們的準則都無法避免替代指標悖論。耿直的文章,澄清了這些準則的缺陷,並且提出了新的準則,可以避免悖論出現。這一系列文章發表在統計學頂級期刊 Journal of the Royal Statistical Society, Series B 上[15]。Tyler VanderWeele 在他的綜述文章中[16],回顧並高度評價了耿直教授的這一系列工作。


耿直在這方面的精深研究,不僅在統計和醫學上有意義,還對科學哲學有所增進。上面介紹的替代指標悖論,在數學上是不可思議的:如果   且    都是單調增函數, 那麼    一定是關於     的單調增函數。在統計和因果推斷中,由於隨機性和隱變量的存在,這種傳遞性(transitivity)一般情況是不成立的。但是,科學研究和人類認知常常依賴這種傳遞性。它的理論根基是不完整的。耿直做出了奠基性的工作。著名數學家陶哲軒,也對類似的問題表現出了興趣,他曾在博客中討論“相關性何時可傳遞?”(When is correlation transitive?)[17]。他回顧了一些基本的不等式,有助於研究傳遞性。但是,這方面的數學結果還不算豐富。


因果圖的結構探索


如上面所述,珀爾關於因果作用可識別性的理論依賴一個完整已知的圖模型。一個更有挑戰性的問題是:如何從數據中學習未知的圖模型?耿直提出了分解和局部學習的方法,化繁爲簡, 有針對性地構建圖模型。在數據不能完全確定變量間因果圖結構的情況下,他提出了一種實驗設計的方法,干預最少的變量,將相關關係的圖轉變爲因果關係的圖。這對科學研究中的實驗,有指導意義。這一系列文章發表在機器學習領域的頂級期刊 Journal of Machine Learning Research 上[18]。


統計因果推斷的未來


雖然因果推斷已經有了一些基礎性工作,但是這些工作還不足以迴應現實世界向我們發出的挑戰。理論上,目前的研究範式還不能完美地應對複雜的實際工作需要。一些學者考慮了因果推斷和微分方程的關係,但是這方面的研究還在草創階段。


不管是魯賓還是珀爾的範式,對於有反饋的因果系統, 都有致命的缺陷,這也是值得思考的問題。另外,現有的工作大多數都是在評估某個給定的原因對某個給定的結果的作用,而科學研究的本質是探索未知的原因。雖然因果圖的結構學習對探索原因有幫助,但是這方面的理論還不夠豐富。因果推斷對整個思想界都有更深刻的意義,它是一種獨特的思辨方式,很多層面上是傳統的數學和概率論所不具備的。更廣地來說,研究因果推斷,對於豐富我們的精神世界,大有裨益。


身處大數據時代,如何從海量數據中挖掘因果關係,也是一個非常有挑戰性但是引人入勝的話題。由於研究深度學習(deep learning)而獲得 2018 年圖靈獎的計算機科學家約書亞•本希奧(Yoshua Bengio)最近轉向因果推斷的研究。他認爲,機器學習和因果推斷兩種思想過去雖然獨立發展,但是在未來會相互交織而產生新的成果[19]。


從應用的角度,因果推斷一直和很多學科發生深刻的聯繫。比如,經濟學家深入研究的工具變量(instrumental variable),是探求因果關係的有力工具。又如,心理學家發明的因子分析(factor analysis),是研究隱變量的有力工具,這對研究不完全觀測的圖模型,大有幫助。我個人的研究,很大程度受到應用工作者的啓發,他們研究的問題常常超越了現有的因果推斷理論,成了新的理論研究的源頭活水。


因果推斷的研究,對規範我國藥物批准和政策評估,也大有幫助。比如,前面提到的 Prentice 和魯賓,都常常爲美國食品藥品監督管理局做諮詢,解決他們在評估藥效方面遇到的困難。我國的生物醫藥行業在未來有很大的騰飛空間,因果推斷的學者們將發揮他們的巨大作用。再如,美國頂級高校的公共政策學院或者政府學院,都有研究因果推斷的專家,他們研究公共政策對社會福利的影響,對於優化社會資源,起着重要作用。研究因果推斷的學者,以後也應該走出象牙塔,承擔社會責任。


作者簡介


丁鵬,2004 年至 2011 年在北京大學數學科學學院獲得本科和碩士學位,2015 年獲哈佛大學統計學博士學位,2016 年起任教於加州大學伯克利分校統計系,2021 年晉升爲副教授。其主要研究方向是因果推斷。



註釋


  1. A. Gelman and A. Vehtari, What are the most important statistical ideas of the past 50 years? 見https://arxiv.org/abs/2012.00174。第一作者曾獲得年輕統計學家的最高獎 COPSS 獎章。
  2. “[T]he sole end of science is the honor of the human mind.” —— Carl Jacobi(卡爾• 雅可比)
  3. 內曼的論文是用波蘭語寫成的。1990 年,D. M. Dabrowska 和 T. P. Speed 將論文翻譯成英文,題目是 On the Applications of the Theory of Probability to Agricultural Experiments,發表於 Statistical Science。潛在結果的基本想法也許在歷史中早就產生了,但是將它數學化、且正式地用於統計學,內曼的文章是首次。內曼是現代統計學的奠基人之一,他對假設檢驗、置信區間、抽樣調查和實驗設計等領域的研究,成爲現代統計學的標準範式。我國概率論和數理統計學的先驅許寶騄教授是內曼在英國指導的學生之一。
  4. 這方面的文獻綜述是:Li, X. and Ding, P. (2017). General forms of finite population central limit theorems with applications to causal inference. Journal of the American Statistical Association, 112, 1759-1769。
  5. 見內曼的傳記:C. Reid (1982), Neyman - From Life。注意,哥白尼和內曼都是波蘭人。
  6. 另外一位受內曼影響的是計量經濟學家 Trygve Haavelmo。他是在計量經濟學中討論因果推斷的先驅。他曾在1989 年諾貝爾經濟學獎的獲獎感言中談及內曼對他的影響: https://www.nobelprize.org/prizes/economic-sciences/1989/haavelmo/facts/。
  7. 文章是 Rosenbaum and Rubin (1983) The central role of the propensity score in observational studies for causal effects, Biometrika, 70, 41-55。在紀念 Biometrika 第一百期的時候,這篇文章的引用數在該雜誌排名第二;參看 Titterington (2013) Biometrika highlights from volume 28 onwards, Biometrika, 100, 17-73。截至寫作本文的時候,Google Scholar 顯示這篇文章已經被引用了28392 次,已經超越了之前引用最高的文章 Liang and Zeger (1986) Longitudinal data analysis using generalized linear models, Biometrika, 73, 13–22(Google Scholar 顯示引用了18345 次)。這種改變,反映了近十年來,因果推斷的研究在學術界的極端活躍性。另外,Biometrika 創刊於 1901 年,是最早的理論統計雜誌之一。
  8. 第一本是 Rubin (2006) Matched Sampling for Causal Effects。第二本是 Imbens and Rubin (2016) Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction。兩書均由劍橋大學出版社出版。
  9. 比如 A. P. Dempster 就用一個無向圖來表示聯合正態分佈中的條件獨立性:給定其他變量,如果兩個變量條件獨立, 那麼他們之間的邊不存在。他的文章是: Dempster, A.P. (1972) Covariance selection. Biometrics, 157-175。
  10. 珀爾的開創性文章是:Pearl (1995) Causal diagrams for empirical research. Biometrika, 82, 669-688.他的專著是:Pearl (2009) Causality: Models, Reasoning and Inference, 劍橋大學出版社。
  11. 此書英文原名是 A System of Logic,直接翻譯過來是《一個邏輯體系》,嚴復先生認爲“邏輯學”就是中國的“名學”, 這一學派興起於先秦,代表人物有公孫龍等。這本書在英語世界產生過很深遠的影響,其中五條“穆勒方法”總結了歸納推理中,獲得因果知識的一些準則。嚴復先生是北京大學從“京師大學堂”更名後的第一任校長,也曾任復旦大學校長。
  12. 原書這章的題目是“On observation and experiment”。按照現在的習慣,“experiment”統一翻譯成“實驗”。前面用到的“臨牀試驗”對應着“clinical trial”。“實驗”和“試驗”的意思似乎差別不大;中文英文皆如此。
  13. Geng (1992) pp. 585-593; Geng and Asano (1993), pp. 741–747; Guo and Geng (1995), pp. 263-267; Geng, Guo and Fung (2002), pp. 3-15; Ma, Xie and Geng (2006), pp. 127-133。
  14. Prentice 曾獲得年輕統計學家的最高獎 COPSS 獎章,終身成就獎“費希爾講座”,他是美國醫學院院士。魯賓是因果推斷的奠基人之一,曾獲得終身成就獎“費希爾講座”,美國科學院院士。Lauritzen 是英國皇家學會院士。
  15. Chen, Geng and Jia (2007), pp. 911-932; Ju and Geng (2010), pp. 129-142; Jiang, Ding and Geng (2016) pp. 829-848。
  16. 文章是 VanderWeele (2013) Surrogate measures and consistent surrogates. Biometrics, 69, 561-565。VanderWeele 曾獲COPSS 獎章。
  17. https://terrytao.wordpress.com/2014/06/05/when-is-correlation-transitive/
  18. Xie and Geng (2008), pp. 459-483; Ma, Xie and Geng (2008), pp. 2847-2880; He and Geng (2008), pp. 2523-2547; Liu et al. (2020)。
  19. 本希奧的文章 Towards Causal Representation Learning 出現在 https://arxiv.org/abs/2102.11107。

致謝:郭建華(東北師範大學)、蔣智超(美國馬薩諸塞大學)、苗旺(北京大學)、張俊妮(北京大學)、潘昆峯(中國人民大學)、黎波(清華大學)、劉中華(香港大學)、鞠念橋(美國哈佛大學)和寧少陽(美國威廉姆斯學院)給作者提出了寶貴的建議。美國密歇根大學生物統計系的宋學坤教授仔細閱讀並修改了本文的初稿。



   
   
   

推薦閱讀

(點擊標題可跳轉閱讀)

神經網絡入門

統 計 學 無 用 了 ???

神經網絡的可解釋性綜述!

測評:《機器學習中的數學》

統治世界的 10 大算法,你知道幾個?

清華大學出版!《機器學習導論》PDF下載

老鐵,三連支持一下,好嗎?↓↓↓

本文分享自微信公衆號 - 機器學習算法與Python實戰(tjxj666)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章