貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

2020-06-22 03:49:58

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

作者 | Mr Bear、蔣寶尚

編輯 | 叢末

6月21日,圖靈獎得主、貝葉斯網絡之父 Judea Pearl 在第二屆北京智源大會上做了《新因果科學與數據科學、人工智能的思考》的報告。

北京智源大會是智源研究院主辦的年度國際性人工智能高端學術交流活動,2019年舉辦了首屆大會,今年爲第二屆。大會參會官網:2020.baai.ac.cn。

在報告中,Pearl說我們現在正處在第二次數學科學革命,這一革命是以科學爲中心的因果革命,相對於第一次以數據爲中心的革命,第二次顯得有些沉默,但威力同樣巨大。

Pearl解釋了因果科學爲什麼需要新的邏輯和新的推理機制,以及因果科學中新引擎的結構是什麼。也對稱之爲“double-helix”兩個因果推理的基本定理進行了交代;最後也給大家講了基於因果智能的七種工具,以及這七種工具是如何給科學帶來革命性變化。

以下是演講全文,AI科技評論做了不改變原意的整理。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

今天給大家講一下因果關係,先從兩次數據科學的革命說起,第一次數據科學革命主要涉及大數據,包括機器學習、神經網絡、深度學習以及它的應用,例如Alpha-Go、語音識別、機器翻譯、自動駕駛等等,尤其是自動駕駛,一直是媒體關注的焦點。

顯然,第一次數據科學革命以數據爲中心。

第二次數據科學革命實際上是因果科學革命,這次革命讓數據走向了政策、解釋、機制泛化,此革命的需要攀爬的最高峯是Free Will。

第二次數據科學革命是以科學爲中心,相對於第一次以數據爲中心,第二次相對沉默了一些,一些新聞報道也鮮有關注。

這因果科學革命會引導我們走向什麼境地呢?在這裏,我引用哈佛大學的Gary King的一句話,“在過去的幾十年裏,人們對因果推理的瞭解比以前歷史中的總和還要多”。這也意味着成百上千個原來認爲是不可能的問題,現在可以使用簡單的數學和的算法來解決。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

簡單介紹完兩次數據科學革命,我介紹下這次演講的大綱,首先講一下什麼是因果科學,爲什麼它需要新的邏輯和新的推理機制;然後介紹因果科學中新引擎的結構;再者,介紹一下因果推理的兩個基本原理,我把這兩個基本原理稱之爲“double-helix”;最後給大家講講基於因果智能的七種工具,以及這七個工具是如何給科學帶來革命性變化。

1

何爲因果科學?

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

所謂因果科學就是回答因果問題的邏輯和工具,如上圖一些因果問題的典型例子:

1、某項治療對預防疾病的效果如何;

2、新的稅收優惠政策和營銷活動哪個是導致銷售額上升的原因;

3、肥胖症每年造成的保健費用是多少;

4、僱用記錄能否證明僱主有性別歧視行爲;

5、我如果辭職了,會不會後悔?

上面這五個問題,顯然無法用現在標準的科學語言(如數學公式)進行回答。爲什麼呢?因爲這些問題都包含着不對稱信息。畢竟“代數學科”從伽利略時代開始,就是專注於等式(完全對稱的因果關係),即y=ax此類的表達式。

而現實中,大多數問題,如上標黃的單詞,預防、導致、歸因、歧視、後悔等等都是含有不對稱屬性的。相對於“等號=”表示對稱信息,那麼我們也可用箭頭→表示非對稱信息。在過去30年中,我和我的同事做了非常多的工作,就是爲了找到非對稱的表達工具,在後面我也會介紹一些工具。

2

推斷引擎的結構

 

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

 

接下來,介紹推斷引擎,此引擎一般有三個輸入,包括我們想知道什麼、我們已經知道什麼以及有哪些數據是可以用的。此外,還有兩個輸出,分別是:待定干預的影響、“假設過去發生的事件未發生所造成的影響”等。推斷引擎想要弄明白的是:一個是過去發生的事情,如果沒有發生,它會產生什麼樣的結果;如果讓一些事情不發生,這又會產生什麼樣的影響。例如,出現了地震我的房子垮掉了;不出現地震我的房子就不會垮掉了麼?

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

上面這張PPT展示了因果關係的學習者必須熟練掌握至少三種不同層級的認知能力:觀察能力(Seeing)、行動能力(Doing)和想象能力(Imagining)。”

第一層級“關聯”表示觀察能力,指發現環境中規律的能力,例如一隻貓頭鷹觀察到一隻老鼠在活動,便開始推測老鼠下一刻可能出現的位置,這隻貓頭鷹所做的就是通過觀察尋找規律;

第二層級“干預”表示行動能力,指預測對環境刻意改變後的結果,並根據預測結果選擇行爲方案,例如是如果我做X這件事情,那麼y會發生什麼變化,一個具體的例子是如果我把香菸戒掉,那麼得癌症的狀況會發生什麼變化;

第三層級“反事實”表示想象能力,指想象並不存在的世界,並推測觀察到的現象原因爲何,例如爲什麼是x導致了y,如果當時x沒有發生,那麼狀況會是怎麼樣的,如果當時採取了其他措施,會發生什麼?具體的例子是:我吃了阿司匹林能治好了我的頭痛嗎?假如奧斯沃德沒有刺殺肯尼迪,肯尼迪會活着嗎?假如在過去的兩年裏我沒有吸菸會怎樣?

編者注:Judea Pearl 曾在他的書裏《爲什麼》中提到:第一層級“關聯”和第二層級“干預”主要針對當前的弱人工智能,包括對現有貝葉斯網絡在深度學習領域的拓展、前門標準實踐、do-calculus 等核心算法;而第三層級“反事實”是基於基於人的想象力和假設,是人類獨有的思考能力,也是令人工智能達到人類智能的關鍵命門。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

要想回答第一層級的問題,就必須得到第二層級或者是更高層級的信息。也就是說僅僅是一個觀測的數據,並不能回答“干預”的問題。

假設有一項關於各年齡段羣體每週的運動時間與其體內膽固醇水平 之關係的研究。如上圖所示,我們以x軸表示運動時間,以y軸表示膽固醇水平。一方面,我們在每個年齡組中都看到了向下的趨勢,表明運動可能的確有降低人體膽固醇水平的效果。

另一方面,如果我們使用相同的散點圖,但不按年齡對數據進行分層,如上圖(右)所示,那麼我們就會看到一個明顯向上的趨勢,表明運動得越多,人體膽固醇水平就越高。

彙總之後的觀察是一個特別令人難以理解的問題,無論對於哲學家還是統計學家來說都非常難以解釋,畢竟這打破了我們“運動讓人健康的認知”,但是如果分年齡來看,運動確實又降低了膽固醇。

這時候如果想有一個算法,那麼它會回答什麼問題呢?我認爲第一個問題應該回答的就是:爲什麼分年齡段考慮時運動有益,而彙總之後,對整體的人羣來說運動似乎無益?

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

出現這種問題的原因是不是因爲數據的特異性?爲了回答這個問題,我再舉個例子,如上圖所示,這個關係的元素中有“藥物”、“性別”、“死亡率”。元素中的藥物對男性不好,對女性也不好,所以就可以推導出對整個人類羣體也不好。

還有一個案例涉及歐洲首次引進天花疫苗所引發的大規模公開辯論。出出人意料的是,數據顯示有更多的人死於天花疫苗,而非死於天花。有些人理所當然地利用這些信息辯稱,應該禁止人們接種疫苗,由於越來越多的爭論,後來政府也不得不禁止了疫苗,不顧疫苗實際上根除了天花,挽救了許多生命的事實。

所以數據具有兩面性,同一個數據能夠講出兩個不同的故事,如果信息發生了一些變化,那麼這個結論也有可能是不一樣的。其實,這個“信息”就是因果關係的關鍵,還是以上面那個疫苗爲例,沒有一個數據能夠表示疫苗是好還是壞,所以你必須超越數據做假設。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

另外,因果推理的一個重要祕訣是準確區分“做”和“看”。比如,你光憑藉灑水器是開着的,無法做出季節是什麼以及是否下雨等預測。這裏的問題是:實際上X1~X3這一層的關係被你切斷了,所以無法推測出“季節”,如右所示,切斷X1~X3的是一個殘缺的模型。這時候,我們可以問一個反事實的問題,如果灑水器是開的,那麼你能否想象到地板的溼度情況,從而推斷出季節是什麼、是否下雨等等。

3

兩個基礎的因果定律

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

有了上面的引子,我們就可以引出因果推斷的兩個最主要的基礎定律,第一個定律是更關於推斷和反事實的,數學表達式爲Yx (u)=YM x(u)。第一定律是說,潛在結果Yx (u)可通過下述方法來推斷:建構模型Mx (確保刪除所有指向X的箭頭,例如W1和x之間的箭頭,然後就得到一個殘缺的模型,隨後看看會發生什麼樣的變化),並計算結果Y(u)。因果關係之梯第二層級和第三層級中的所有可估量都由此產生。簡言之,將反事實簡化爲一個算法使我們得以在數學所允的範圍內征服第三層級的一大片版圖——當然,也不可能再多了。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

第二個因果定律是關於條件獨立法則,在模型中能夠分離,可以推導出在分佈相互獨立的,其數學表達式如上畫黃框所示:數據當中的條件獨立性。我們現在已經有了很多的方法,可以對模型進行檢驗,看其是否和數據之間有兼容性。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

上圖當中每一個缺失的箭頭都表示一種獨立性,當然它是條件限制於一個分離的集合上。我們接下來需要明確這之間的函數,我們知道這個函數的方法是什麼,你可以看到C->S等等,你可以確保這裏的數據能夠展示出不同的變量。那麼它們之間是否具有獨立性?它們是否具有獨立性要取決於C和W這樣分離的變量;我們在圖中從C走向W,圖中會有一個碰撞點,這樣的話我們就可以對模型進行測試。我們如果看到數據之間不兼容,那麼我們就知道這個模型是有問題。

4

基於因果科學的 7 種工具

接下來,我們將爲大家介紹使用基於因果科學的新型代數方法可以做些什麼。

Tool 1:通過透明可測的方式對因果假設進行編碼。這一點在前面的演講中已經談到過。總的來說,透明指的是我們對因果假設的編碼需要基於合理的事實或者概率依據,在必要時補充額外的假設。而可測指的是對因果假設的編碼需要能在現有的計算條件下實現。

Tool 2:預測行爲和策略造成的效應(effect)。下面,我們用一個 Shrier 和 Platt 於 2008 年提出的運動醫學領域的簡單例子(熱身對於運動損傷的影響)對此進行解釋。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

科學家們首先在圖中表示出了可能的因素,如你所見,其中有些因素是難以測量的。那麼問題來了,既然測量的成本很高,那麼我們應該測量哪些因素呢?上圖定性地給出了這些因素,其中每個單詞表示的事實都會影響其指向的事實的值。我們想知道的是與 injury 相連的因素。如果你去測量 z1 和 z2 或者 z1 和 z3,是否能夠確定熱身對運動損傷的影響呢?我們不要考慮之前受過的傷,否則會噪聲偏見(比如選擇性偏見)。如果這樣做的話,我們將得到 do-calculus 的結果。

Tool 1 和 Tool 2 分別指的是「我們已經知道什麼」,以及「我們想知道什麼」。

Tool 3:計算反事實並發現引發效應的原因(屬性,解釋,敏感性)。我們並不僅僅要知道某種原因能夠造成怎樣的結果,還要能夠根據結果反推原因,進行歸因分析。我們可以討論屬性、解釋、敏感性(一個客戶對於某種廣告有多敏感,某個病人對某種治療方案有多敏感,等等)。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

在這裏,給定一個模型和數據,請你確定一下如果 Joe 再接受一年的教育,他的工資將會變成多少?在這裏,我們關注的對象不是一個羣體,而僅僅是 Joe 這一個人。由於我們研究的是某個特定的個體,要想研究這個問題,我們必須進行反事實推理。那麼,現在問題來了,我們是否可以根據羣體的數據(group data),研究個體(individual)的行爲?是的,我們可以!當我們深入分析某個具體的領域時,我們可以使用「surgery」一樣的過程來計算每個反事實的概率或者給出其邊界。簡而言之,我們在這裏討論的就是引發效應的原因,在本例中,我們可以形式化定義它。

舉例而言,如果一個人可能由於使用藥物、疾病去世了,現在有人因此要尋求賠償。如果 A 還活着,還有哪些因素會對他有影響,這些因素對他的生命是否有損害,這些因素之間是否獨立?這關係到法庭如何對賠償做出判決。下面,我們從數學的角度定義這個問題。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

在上述公式中,我們用反事實的語言進行描述。這個人吃了某重要,然後死亡了。因此,我們將這兩個事件用黃色表示在上述公式 PN 中條件概率 P 項的條件中。那麼,此時的反事實就是,如果他沒有喫這個藥,他活了下來的概率。此時,爲了滿足反事實,PN 的概率必須大於等於 0.5。以上就是這樣的屬性必須滿足的標準。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

在這裏,如果我們將羣體數據、實驗數據和觀測數據結合起來,信息量將會很大,從而對了解每個人的表現非常有用。

下面我們繼續看一個與個體表現有關的例子——病人對於治療方法的敏感性。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

現在,新冠疫情在全球肆虐,我們積累了海量的數據,但是需要識別出真正急需治療的病人。在這裏,我們也可以用到反事實的相關概念。要想找出真正急需治療的病人,我們需要通過上面的 反事實度量函數 PNS 捕獲病人對於治療的敏感性。PNS 的意思是:對於一個具有特徵 c 的病人來說,只有對他採取我們的治療措施,他的情況纔會好轉。

此時,將實驗數據和觀測數據相結合可以爲 PNS提供包含豐富信息的概率邊界。根據羣體數據分析個體行爲需要反事實的邏輯,此時我們也需要將這兩種數據相結合,只使用其中一種是行不通的。

Tool 4:計算直接和間接的效應(中介傳導分析,mediation)。這一工具現在也被用於判斷「歧視」、「不公正的做法」、「不公平現象」。我們要討論人工智能和機器學習領域中的公平性問題時,我們必須考慮中介效應,我們通過反事實推理分析這種中介效應。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

當我們討論中介傳導效應時,我們的任務是:給定數據和模型,揭示並量化分析傳播從原因到各種效應的變化的機制。反事實的圖形化表徵告訴我們,我們何時可以根據數據估計出直接和間接效應,並且確定這種中介效應是否是必要的或充分的。這樣一來,我們就可以知道僱主在僱傭過程中是否存在歧視。而僱傭過程中的性別歧視是將受到法律的懲罰的。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

如上圖所示,當我們考慮性別(X)對僱傭行爲(Y)的影響時,我們如何來定義二者之間的直接效應呢?一種可行的方法是:考慮中間因素 M,決定是否根據 M 進行調整。此時,影響僱傭行爲的除了性別還有資質 M。根據公式 CDE,我們可以判斷僱傭過程是否依賴於 m。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

實際上,對於僱傭歧視的反事實定義爲:如果僱員除了某種特性(年齡、性別、宗教、民族學通)不同,其它的特性都相同,僱主會不會採取不同的僱用行爲。接下來,我們的任務就是將其轉化爲形式化的數學語言。我們將該任務定義如下:

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

在這個僱傭過程中,對於每一個 u(特定的羣體),無論 M 在 Y 變化前的值爲多少,我們都保持 M 不變當我們將 X 從 x0 變爲 x1 時,Y 的變化的期望爲:

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

我們可以對這個簡單的反事實方程進行估計,看看要想使這個方程可以被估計,需要哪些必要的數據。這樣一來,我們就可以定量的把這個反事實問題用形式化的語言定義爲了一個因果科學問題。

通過這樣的方式,我們就可以研究一系列歧視現象。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

Tool 5:融合多源數據,也即模型的泛化能力和數據融合。如何把不同的觀測研究結果進行融合,尤其是你在一個地方開展了一個調查,那麼在另外一個地方是否能夠適用。以新冠肺炎爲例,我們有來自中國、意大利等等各國不同的研究數據,那麼怎麼樣把這些研究放到一起然後得出在美國應該採取什麼樣的措施。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

我們採用的方法是每一個調查的數據都用圖表進行表示,其中箭頭代表不同的因素,把這些因素放進圖表中,然後用數學公式表達,然後就能針對你的目標羣體得出一些結論,或者分析出你的目標羣體和其他調查的羣體有什麼不同之處。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

Tool 6:恢復缺失的數據。所有的數據都會有缺失值,其實標準的數據缺失問題也需要藉助因果建模來解決。我們可以形式化地定義利用不完整的數據恢復出因果和概率關係的條件,確定何時可以一致地估計利益關係(interest),從而使回覆後的數據就像“沒有數據丟失一樣。”這也是我們說「數據缺失也是因果問題的原因。

貝葉斯網絡之父Judea Pearl:新因果科學與數據科學、人工智能的思考

Tool 7:因果發現。這個工具的重點是找出一系列的能夠和數據相兼容的模式或者圖表,同時能夠有一些“緊湊”的方式來表達出數據,從而能夠回答一些因果問題。

最後總結一下,我認爲因果革命正從研究蔓延到教育和應用等領域。而雖然說人們正在關注的是數據,但也正在慢慢轉向科學。尤其在社會智能領域,因果科學會和AI有個親密的、有意義的交流互動。

因果革命雖然還未到達高潮,但我們正在經歷!我們相信在不久的將來會一場聲勢浩大的革命。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章