人工智能 | 圖靈獎Yoshua Bengio報告:如何用深度學習來實現System2?

這是學習唐傑老師的總結。 

圖靈獎得主Yoshua Bengio在NeuIPS 2019帶來一場題爲《From System 1 Deep Learning To System 2 Deep Learing》的報告,提到了幾個非常有意思的觀點。

本文爲大家帶來Yoshua Bengio的報告詳解。

報告地址:

https://nips.cc/Conferences/2019/Schedule?showEvent=15488

 

Yoshua認爲,AI作爲本世紀的驚人進步,僅僅依靠增加數據集、模型大小、電腦速度是否就足夠了呢?實際上AI距真正的人工智能還差的很遠!

 

 

Yoshua的第一個觀點,是指人的認知系統包含兩個子系統(這是認知理論中大家共識的觀點):System1直覺系統,主要負責快速、無意識、非語言的認知,這是目前深度學習主要做的事情;System2是邏輯分析系統,是有意識的、帶邏輯、規劃、推理以及可以語言表達的系統,這是未來深度學習需要着重考慮的。當然Yoshua也提到計算機作爲Agent實現AI,需要從計算機角度考慮,比如更好的模型和知識搜索等。

 

對於如何用深度學習來實現System2?

 

Yoshua認爲,對於計算機來說,最關鍵的是處理數據分佈中的變化。對於System 2來說,基本的要素包括:注意力和意識。注意力(Attention)實際在目前的深度學習模型中已經有大量的實現和探討,比如GAT(圖注意力機制)等;意識這部分則比較難,其實意識最關鍵的是定義到怎樣的邊界。Yoshua提到意識先驗可以使用稀疏因子圖模型來實現,這是一個思路,實現了因果關係。從整體的理論框架方面可以考慮元學習(Meta-learning)、局部修正假設(localized change hypothesis)、因果發現(causal discovery),最後架構方面可以考慮如何學習不同對象的操作。

 

對於處理數據分佈,傳統機器學習都是基於IID(independent and identically distributed),也就是獨立同分布的假設,但實際現狀是很多真實場景下我們感興趣的數據往往是出現次數非常少的數據,也就是我們在處理時需要關注更多的是OOD(out of distribution),也就是在數據中出現較少的分佈,當然這需要我們在機器學習算法中有新的數據假設。尤其是從Agent的角度來考慮,需要考慮哪些是影響數據分佈變化的因素,以及不同分佈的可組合性等方法如何對現在的IID和OOD進行泛化。相對傳統的符號AI系統,當前的AI需要更多具有泛化能力的機器學習能力。

 

 

注意力機制是最近幾年深度學習發展的一個重要技術,最近幾年在很多系統中都有大量應用,注意力機制可以看做實現意識的第一步,在人類大腦中有自上而下的注意力和自下而上的注意力。

 

從認知角度來說,意識是一個很複雜的機制,Global Workspace Theory是1988年Baars等人提出的一個認知神經理論,其核心思想就是意識內容在各種不同認知過程中全局存在,包括Attention、 Evaluation、 Memory and verbal report。這些概念聽起來有點抽象,後來Dehaene、Changeux and colleagues 等人提出了一個Global Workspace Architecture的實現模型。Global workspace theory和前面介紹的System2很相似,其他和意識相關的認知理論還包括Multiple drafts theory,這是Daniel Dennett在1991年提出的一個理論。

 

機器學習和意識模型相結合的關鍵是如何在機器學習中實現意識,或者說意識相關的理論/模型如何幫助機器學習。比如可以基於意識理論構造一些假設,然後用機器學習的方法來驗證這些假設。當然從人的角度來看意識,高層次的表示可以說是語言,這需要把人的兩個認知系統System1和System2有機地結合起來,也就是說把低層次的表示和高層次的決策結合起來。

 

 

Yoshua還提到了前意識/意識先驗。具體可以使用稀疏因子圖,稀疏因子圖不是一個新的事,基本思路是圖模型的統一模型,因子圖的好處是可以把有向圖和無向圖都統一起來。稀疏因子圖可以用來學習變量之間的因果關係,從而構造變量之間的因果關係(找到真正的因果關係,而不是給不同變量給一個權重,這是爲什麼考慮稀疏的原因)。

 

元學習(學習學習的模型)是可能實現機器學習到OOD和模型快速遷移的一個辦法。說到OOD,究其原因是有行爲的變化,或者是用戶行爲對於數據的干預。元學習的知識表示可以有效幫助克服OOD,比如通過元遷移學習到變量之間的因果關係,這裏的挑戰是如何學習到未知干預變量的因果特性。最後是如何學習樣本的可能操作,類似自動機器學習,但這裏是在對象的不同操作層面。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章