人工智能的下個十年在推理?

  描述性統計和推論性統計那個更有說服力?

  清華大學計算機系唐傑教授最近有做一個主題報告《人工智能下一個十年》,先闡述了最近快速發展的算法,並思考人工智能的未來到底是什麼?相信做AI的都會思考這樣一個問題,這東西究竟靠譜嗎?唐傑教授對未來的期望主要是說認知圖譜:

認知圖譜

  對於解決複雜的邏輯推理問題,計算機可能只會找到局部的片段,仍然缺乏一個在知識層面上的推理能力,這是計算機所欠缺的。人在這方面具有先天的優勢,而計算機缺乏類似的能力。

  認知圖譜的核心概念是知識圖譜+認知推理+邏輯表達。希望用知識表示、推理和決策,包括人的認知來解決問題。

system1到system2

  圖靈獎獲得者 Yoshua BengioYann Lecun在最近的NeuripsAAAI會議上也提到過的一個方法System 1System 2。基本的思想是結合認知科學中的雙通道理論。在人腦的認知系統中存在兩個系統:System 1 和 System 2。System 1 :是一個直覺系統,它可以通過人對相關信息的一個直覺匹配尋找答案,它是非常快速、簡單的;而 System 2: 是一個分析系統,它通過一定的推理、邏輯找到答案。二者相輔相成。

  在 System 1中我們主要做知識的擴展,在 System 2中我們做邏輯推理和決策。比如System 1提供解決問題的方法,而System 2則決策這個方法是否合理,並提供有效信息給System 1System 1基於此再做知識擴展。

  比如自然語言處理中,System 1是一個直覺系統,我們用 BERT來實現,實現了以後,我們就可以做相關的信息的匹配;System 2 就用一個圖卷積網絡來實現,在圖卷積網絡中可以做一定的推理和決策。

  可以看到基於推理的算法似乎比單純的基於統計的算法更讓人興奮。事實確實如此,那更具體一點的描述會是什麼樣子的呢?

舉例說明

  爲什麼說基於一定推理的統計會比單純的統計會好一點呢?或者說更偏向通用人工智能呢?

舉個例子:共有11 個罐子,標記爲μ{0,1,2,,10}\mu \in \{0,1,2,\cdots,10\}, 每個罐子裏裝着10 個球。罐子uu 中裝着uu 個黑球和10u10 - u 個白球。小明隨機地選定罐子uu, 並從這個罐子中有放回地取球NN 次,結果nBn_{B} 次抽到黑球, NnBN-n_{B} 次抽到白球。小明的朋友小紅在一旁觀看。

  先求一個後驗概率分佈,看一下求解過程:

  如果N=10N=10 次後抽到nB=3n_{B} = 3 次黑球,那麼從小紅的角度來看,小明所選罐子是uu的概率是多少?(注意:小紅並不知道uu 的數值。)

  解答:其實就是要求P(unB,N)P(u|n_{B},N),利用貝葉斯定理將其展開可得:

P(unB,N)=P(u,nBN)P(nBN)=P(nBu,N)P(u)P(nBN)\begin{aligned} P\left(u | n_{B}, N\right) &=\frac{P\left(u, n_{B} | N\right)}{P\left(n_{B} | N\right)} \\ &=\frac{P\left(n_{B} | u, N\right) P(u)}{P\left(n_{B} | N\right)} \end{aligned}

  對於所有的uu,其邊緣概率P(u)=111P(u)=\frac{1}{11}(或者稱作uu的先驗概率)。

  如果選定罐子uu,那麼抽中黑球的概率fu=u10f_{u}=\frac{u}{10},此時P(nBu,N)P\left(n_{B} | u, N\right)(稱作uu的似然)可表示爲:

P(nBu,N)=(NnB)funB(1fu)NnBP\left(n_{B} | u, N\right)=\left(\begin{array}{l} N \\ n_{B} \end{array}\right) f_{u}^{n_{B}}\left(1-f_{u}\right)^{N-n_{B}}

  而P(nBN)P\left(n_{B} | N\right)nBn_{B}的邊緣概率,利用加法律得到如下等式:

P(nBN)=uP(u,nBN)=uP(u)P(nBu,N)P\left(n_{B} | N\right)=\sum_{u} P\left(u, n_{B} | N\right)=\sum_{u} P(u) P\left(n_{B} | u, N\right)

  其實就是來個某個罐子uu的情況除以所有的情況。在nB=3n_{B}=3 時, u=0u=0 的後驗概率等於0, 因爲如果小明是從罐子0 中取球,則不可能取到黑球。u=10u=10 時的後驗概率也等於0, 因爲這個罐子中沒有白球。

  其計算結果如下圖所示:

計算結果

  假定小紅在N=10N= 10次抽取中觀察到黑球出現了 nB=3n_{B}=3 次,讓小明從同一罐子中再抽取一個球。下面抽得的球是黑球的概率是多少?

  解答根據加法律,有:

P( 球 N+1 是黑球 nB,N)=uP( 球 N+1 是黑球 u,nB,N)P(unB,N)P\left(\text { 球 } N+1 \text { 是黑球 } | n_{B}, N\right)=\sum_{u} P\left(\text { 球 } N+1 \text { 是黑球 } | u, n_{B}, N\right) P\left(u | n_{B}, N\right)

  因爲球是從給定的罐子中取出並放回的,所以無論nBn_{B}NN 的值是什麼,概率P(N+1uuB,N)P( 球N+1 是黑球|u,u_{B} ,N)等於fu=u/10f_{u}=u/10。於是有:

P( 球 N+1 是黑球 nB,N)=ufuP(unB,N)P\left(\text { 球 } N+1 \text { 是黑球 } | n_{B}, N\right)=\sum_{u} f_{u} P\left(u | n_{B}, N\right)

  利用圖(2.6) 中給出的概率P(unB,N)P(u|n_{B},N)的值,可得:

P( 球 N+1 是黑球 nB=3,N=10)=0.333P\left(\text { 球 } N+1 \text { 是黑球 } | n_{B}=3, N=10\right)=0.333

  那上述過程如果用統計的思想來做,首先選取看上去最可能的假設(在這裏,最可能的罐子是罐子u=3u =3), 然後假設該假設爲真,並做出預測(這會得出這樣一個結果:下一個抽得的球是黑球的概率爲0. 3) 。

  而正確的預測會通過在假設uu 的所有可能值上進行邊緣化(marginalize) , 把不確定性考慮進去。這裏的邊緣化會給出一個更合適的、不那麼極端的預測。

  可以看到,基於貝葉斯的學習算法比單純的統計學習更好一點。

參考資料

  • 清華大學唐傑教授-《人工智能下一個十年》
  • 《信息論、推理與學習算法》
  • From System 1 Deep Learning to System 2 Deep Learning:https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章