貝葉斯之父Judea Pearl推薦:機器學習因果推理的7個有用工具

人工智能先驅、貝葉斯網絡之父、美國計算機科學家 Judea Pearl 在最近的一篇論文中解釋了基於數據統計的機器學習系統的一些侷限性。要理解“爲什麼”,並回答“如果……會怎樣”之類的問題,我們需要某種因果模型。在社會科學領域,尤其是流行病學中,一種名爲“結構因果模型”(SCM)的革命性數學框架已經被廣泛採用。Pearl 介紹了這種模型可以處理的七個任務,雖然這些任務對於關聯機器學習系統來說有些遙不可及。

三層式因果模型層級

因果模型理論所揭示的一個有用見解是根據每個類能夠回答的問題類型對因果信息進行分類。這種分類形成了三層式的結構,只有當層級 j(j >= i)的信息可用時才能回答層級 i(i = 1,2,3)的問題。

最低(第一)層被叫作關聯(Association),它涉及由裸數據定義的純統計關係。大多數機器學習系統運行在這一層上。

第二層被叫作干預(Intervention),不僅涉及到能看到什麼,還涉及你可能採取的行動(干預措施)有哪些影響。我認爲增強學習系統是運行在這個層上(例如,“如果我把騎士移到這個方格會怎樣?”)。增強學習系統傾向於在定義良好的環境中運行,而干預層也包含了更多的開放性挑戰。作爲例子,Pearl 提了一個問題:“如果我們將價格翻倍,將會發生什麼?”

這些問題無法單獨從銷售數據中得到解答,因爲它們涉及客戶行爲的變化(對新的價格作出反應)。

我個人認爲,如果銷售數據可以顯示出先前價格上漲所帶來的影響,那麼很可能可以基於銷售數據構建一個預測模型。Pearl 的反駁論點是,除非我們能夠準確地複製之前價格達到當前價格兩倍時的市場條件,否則我們無法真正知道客戶會做出怎樣的反應。

最上面一層被稱爲反事實(Counterfactual),解決的是“如果……會怎樣”問題。當規模很小時,序列到序列生成模型就能夠解決問題。我們可以“重放”序列的開頭,修改下一個數據值,然後查看輸出會發生什麼變化。

這些層構成了層次結構,介入性問題無法從純粹的觀察性信息中得到回答,而反事實性問題無法從純粹的介入性信息中得到回答(例如,我們無法對已經接受了藥物的受試者重新進行實驗,以便知道如果不爲受試者提供藥物會怎樣)。在層級 j 回答問題的能力意味着我們也可以回答層級 i(<=j)的問題。

這種層次結構及其所包含的形式限制解釋了爲什麼基於關聯的機器學習系統無法推理動作、實驗和因果解釋。

結構因果模型

結構因果模型(SCM)結合了圖形建模、結構方程、反事實和介入邏輯。

我們可以使用這些工具正式表達因果問題,以圖解和代數形式編纂我們現有的知識,然後利用數據來估計答案。此外,當現有知識狀態或現有數據不足以回答我們的問題時,這個理論會警告我們,然後建議其他知識或數據來源,讓問題變得可回答。

SCM“推理引擎”將假設(以圖形模型的形式)、數據和查詢作爲輸入。

例如,下圖顯示 X(例如服用藥物)對 Y 具有因果效應(例如恢復),第三變量 Z(例如性別)影響 X 和 Y。

這讓我想起了我在貝葉斯決策方面看到的模型。

有三個輸出:

  • Estimand 是一個數學公式,根據假設提供從任何可用假設數據中回答查詢的方法。
  • Estimate 是查詢的答案,以及置信度的統計估計。
  • 一組擬合指數(Fit Indices)用於衡量數據與假設的兼容程度。如果編碼的假設沒有任何可測試的含義,則該集合爲空。

如果在給定模型假設的情況下無法回答查詢,則將其聲明爲“無法識別”。

所幸的是,我們已經開發出有效且完整的算法來確定可識別性,併爲各種反事實查詢和各種數據類型生成估計。

SCM 可以爲我們做些什麼?

Pearl 並沒有深入研究 SCM 的運作細節,而是列舉了 SCM 框架提供的七種因果推理工具。

1. 透明度和可測試性

透明度讓分析師能夠辨別出編碼假設是否合理,並且源於緊湊的圖形表示。

可測試性是通過一個叫作 d-separation 的圖形標準來增強的,這個標準提供了原因和概率之間的基本連接。它告訴我們,對於模型中任意給定的路徑模式,我們應該期望在數據中找到哪些依賴模式。

2. do-calculus 和混淆控制

這裏的混淆似乎是指潛在變量的存在,潛在變量是兩個或多個已觀察到的變量的未知成因。如何選擇協變量來控制混淆早在 1993 年就已有定論,後來的 do-calculus 在可行的情況下預測政策干預的效果,並在假設不允許預測時退出。

3. 反事實

現代因果關係研究的最大成就之一就是通過圖形表示形式化反事實推理。每個結構方程模型都確定了每個反事實句子的真實性。因此,如果句子的概率是從實驗或觀察研究或二者的組合估計出來的,那麼我們就可以基於分析做出決策。

4. 調解分析

調解分析涉及發現中間機制,通過這些中間機制可以將原因傳給結果。我們可以發起諸如“X 對 Y 的影響的哪些部分是由變量 Z 調節的”之類的查詢。

5. 適應性、外部有效性和樣本選擇偏差

健壯性問題需要環境的因果模型,並且不能在 Association 層面處理… do-calculus 提供了一種完整的方法用於克服由於環境變化而引起的偏差。它既可用於重新調整學習策略以規避環境變化,也可用於控制由非代表性樣本引起的偏差。

6. 從不完整的數據中恢復

通過使用 SCM 因果模型,我們有可能對條件進行正規化。在這些條件下,可以從不完整的數據中恢復因果關係和概率關係,並且只要滿足條件,就可以爲所需關係生成一致的估計。

7. 因果發現

d-separation 標準讓我們能夠檢測並列舉給定模型的可測試含義。我們還可以推斷出與數據兼容的模型集。還有一些方法用於發現因果方向性。

結 論

一方面,這篇文章看起來像是在推廣 SCM:“關聯機器學習”方法與層次結構中的關聯層緊密聯繫。另一方面,豐富的因果推理理論似乎可以爲傳統的機器學習方法提供很多補充。Pearl 肯定也是這麼認爲的!

鑑於因果模型對社會科學和醫學科學產生的變革性影響,我們很自然會期待機器學習技術也會發生類似的變革。我期待這種共生產生的系統能夠使用原生因果語言與用戶溝通,並且藉助這種能力成爲下一代 AI 的主導。

原文鏈接:

https://blog.acolyer.org/2018/09/17/the-seven-tools-of-causal-inference-with-reflections-on-machine-learning/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章