萬字長文:2020智源大會總結-多角度看AI的未來

來源:混沌巡洋艦

導讀:智源大會2020 聚焦AI的未來,大家都知道, 2010是深度學習的時代, 我們經歷了AI從巔峯進入到瓶頸的過程。那麼什麼是2020這個十年AI的中心?

近一段大家逐步從各個不同的角度切入到這個主題, 比如從相關到因果, 從感知到認知, 重新結合符號主義, 結合腦科學,發展基礎數學等, 而2020的智源大會,就是分別從這些不同角度進行跨學科交流的一次盛會。

1 因果角度

一個當下機器學習界的共識是,機器學習需要從感知過度到認知,但是對於如何引導這次革命,大家的答案是不一樣的, 而一個重要的觀點在於當下機器沒有因果推理的能力。

這次會議有幸請到Jude Pearl, 因果被稱爲是第二次數學科學革命。因爲對於我們需要回答的大部分問題 ,都密切依賴我們對因果關係的建模, 這些問題包含對行爲結果的分析和反事實推理。

比如當下如果我要達到目標A, 我如何構建中間條件, 如果我沒有做某事今天會怎樣(反事實)等。而這些能力是當下深度學習所不具備的, Jude Pearl的演講深入淺出的引入了這個問題, 並用幾個生動的例子提出了指出一些可能的解決方法。

因果理論的核心,就是do calculus, 它提到我們的模型如果要包含因果,就要能夠模擬由行爲產生的結果的不同, 這和我們之前物理的mechanic model 是相通的。你有現象模型可以預測數據,但是這是觀測數據的聯繫,而非基於某個行爲產生一定變化的因果模型。

爲了建立這樣的模型,一些必要的數學工具是必不可少的, 比如概率圖模型,獨立因果分析框架, 有關反事實的數學模型等。

2 認知和腦網絡角度

讓人工智能具有認知能力那麼最直接的解決方法無疑是直接模擬人類的理解和思維能力。

2.1 畢彥超 人類的平行知識表示系統

我們的知識一種是從經驗提取的,一種是存在人腦中的先驗知識。對於神經網絡,對於同樣的事物,比如香蕉和蘋果,紅色和黃色, 我們既可以形成類似CNN的物體表示, 又可以生成類似語義網絡那樣的符號結構(知識圖譜)。這兩種系統的認知基礎是什麼?

畢研超團隊通過研究先天盲人和健康人對類似的顏色等概念的表徵,證實了平行的知識表示系統的存在。例如盲人和正常人都可以形成對不同顏色的概念表示,但是這些表示通過FMRI 顯示背後活躍的腦區是有區別的。而盲人的概念表示更接近語義網絡, 正常人卻相似CNN經過ImageNet訓練得到的一般表示。

我們知道大腦最終學習概念需要學習得到從感知到抽象符號的關係, 並通過概念之間的關聯來定位一個特定概念。那麼是否這兩種表示系統需要以某種形式耦合得到人類的知識表示, 這是一個非常值得思考的方向。

PPT :blog.csdn.net/qq_411858

方方 Maps and Functions of Humbian Attention

注意地圖和功能地圖 , 大腦資源有限, 動態切換注意點是非常必要的。這就涉及注意力這個AI和腦科學都是很核心的問題。

雖然當下的注意力模型已經是AI最重要的組成部分, 但是它和大腦真實使用的注意力仍有不小的差距。我們說大腦真實的注意力有兩種不同的機制。一個是自下而上的salientcy map,另一個是自上而下與自下而上的priority map 。 

這就好像當平靜的草原突然出現一匹馬,那麼你的注意力可能會突然響應,這就是salientcy mapping, 反過來,你可能因爲你的目標,比如擊中飛來的網球來鎖定注意力,它就是priority map。

事實上我們發現salientcy map 從V1 就有很強的表達 ,說明這種自下而上的注意力是很基礎的。而這類attention model 也不同於我們AI的模型,而是一個動態圖, 始終在搜索圖片最具有信息的地方作爲關注點, 然後跳到下一個點。構建一個動態的attnetion model 。

2.2 劉嘉 From representation to computation : the cognitve neurointelligence

通過AI研究大腦, 通過大腦啓發AI, 這個講座告訴大家如何比較深度神經網絡和大腦的”思考“方式, 如果有一天兩者開始對話,他們能夠互相理解對方嗎?

劉教授從心理學的角度來講解如何對比深度神經網絡和人腦兩個信息處理的黑箱到底能否直接進行對比, 假定我們瞭解了人腦認知的結構, 那麼是否可以用來啓發人工智能系統 。

我們說當下的深度網絡是一個黑箱,事實上心理學也經常把我們的大腦比喻成黑箱。黑箱和黑箱進行比較,似乎是不可能的任務, 然而劉嘉團隊的方法 -逆向相關化使這個問題變成可能。

這裏介紹人臉識別(此處以性別識別爲例)的工作,無論對人還是計算機這都是一個很重要的工作。然而我們並不清楚無論是人還是機器是怎麼完成這個任務的。

這裏我們可以想法得到女性和男性的平均臉(無數面孔的平均)。然後在這個平均臉上加上各類人爲生成的奇怪噪聲然後並讓機器(一個訓練好的VGG網絡)分類是男是女, 這樣我們就可以得到一組“男性”噪聲 和 “女性” 噪聲,我們分別把兩組噪聲再此分別疊加平均後就得到兩個奇怪的斑圖,我們可以稱爲feature 圖。

然後我們把“男噪聲” 和“女噪聲”兩個相減得到一個差值的feature圖, 我們會發現這時候一個非常清晰的圖案從噪聲裏湧現出來,比如我們看到眼角,嘴角,和下巴輪廓等。這就是機器用來分辨人類的特徵圖,或者說機器識別人臉的因子圖。

然後團隊對人做了相同的分析,也得到人對性別識別的這個因子圖, 這時候我們可以分析人和計算機識別人臉的相關性高達0.73 , 說明人和計算機學習到的性格學習方法高度同質化。同時這也說明隨機噪聲其實是有結構的, 我們對這個特徵圖做低頻和高頻的傅里葉分解,可以看到低頻部分人和VGG(vgg face)相關性更高。這讓機器和人對人臉的表示相關性極高且集中於低頻。

這裏討論比較認知科學和機器學習的關聯的時候,我們最好引入David Marr的三個層次語言體系, 也就是計算層, 表示層,硬件層, 人和VGG模型的計算目標(最高層)是相同的,在硬件層顯然大相徑庭, 這個研究表明在第二層次表徵層兩者卻是高度相通的。

剛剛用到的網絡是專門爲人臉訓練的。我們也可以用遷移學習轉移一個從ImageNet訓練的通用CNN,然後訓練讀出層,用遷移學習來識別人臉,這時候兩者的表徵是否相通呢?實驗表明兩者表徵居然依然是類似的。

最後研究團隊用sparse coding來認識這件事。sparse coding的原理表明, 隨着網絡層級的提高,網絡表示的稀疏性隨層級增加, 這將導致對人臉識別的關鍵特徵會呈現disentagle的離散化形式,也就是可能只有少數神經元編碼一個特徵(這是神經編碼sparse coding和symbolic 表示的內在聯繫, 最終的表示是一個稀疏因子圖) 

事實上高層越稀疏, 分類效果越好, 比如alexnet。人腦和深度網絡的共同選擇。心理學可以用來理解深度學習, 得到一個可解釋的神經網絡。

*** 從這個講座一個有意思的延申, 似乎我們個人識別美醜的特徵正是這些用於性別識別的特徵。

2.3 吳思 The cross talk between biology and computer vision

我們所熟知的深度網絡泛化能力有限, 容易受到噪聲干擾, 其關鍵問題是不能抓住全局信息。所謂的全局信息在圖像處理的重要體現就是拓撲信息。人對圖片的認知從來是從宏觀到局部認知的, 所謂top-down-processing。

一個重要的假設是我們對圖象的理解是從圖象整體的拓撲結構一步步展開的:首先人的認知從拓撲開始的,人的圖像理解是一個猜測認證的過程,在一個不確定的圖片裏, 人要通過物體的整體輪廓對可能的情況進行猜測(sub-cortical pathway 比如天空中飛翔的鷹的影子),然後再提取出和這個整體輪廓相關的細節(ventral pathway,從細節到整體),鷹爪,鷹眼·, 補充對整體的認知,經過一個循環得到對視覺事物的認知 。人,先驗的知識, 經驗,記憶決定了我們要看到什麼。從高級到初級視皮層的。

深度學習只模擬了從細節到整體的ventral pathway, 而沒有那個事先提煉整體的通路subcortical pathway。實驗表明人腦能夠非常快速的探測圖像的拓撲信息, 這似乎揭示這個拓撲的認知並非那麼困難而是存在於比較基礎的腦區。

事實上這個對圖象的宏觀拓撲特徵提取的機制可能從視網膜就開始了, 人眼裏的RGC cell通過電突觸gap junction相連(正反饋),使得這部分神經元可以快速的同步化,同時興奮和抑制神經元間存在旁側抑制。

這種正負反饋並存的一個後果是對圖象宏觀結構的自然分割,比如白色背景(天空)中的一個黑色局部(老鷹)。這種同步可以幫助大腦很方便的提取低頻信息,如同在原野上燃燒的一把火,它會自然的把易燃的草地和岩石給分隔,從而抓住拓撲特徵。

我們能否利用人類對視覺圖像理解的這種兩通路設計來構建一個人工神經網絡呢?第一階段利用subcortical pathway 來實現整體的輪廓提取, 第二階段再利用ventral pathway的原理做細緻的分類。 

動力學上看第一個迴路的啓動速度要快於第二個迴路, 在第一階段通過拓撲提取回路的同步和正反饋來抓住大類。第二階段, 則通過負反饋來去掉大類平均強化對細節的注意,如此反覆循環,這將實現非常具有魯棒性的對視覺物體的理解!

吳思最終在講座中指出, 當人工智能發展下去到認知,人腦和AI會越來越近。

** 這個講座告訴我們當下的深度學習和人類認知的很大區別在於缺乏人腦的豐富動力學機制, 加入這些機制後一些對機器很困難的事情可能是自然而然的。

2.4 餘山 From Brain Network to brain-like computation

腦和AI很大差異, 如何從計算原理的層面理解這種本質並利用腦啓發改善AI?

我們首先看細胞和突觸層面,神經細胞信息傳遞靠突觸,上游脈衝, 神經遞質不總有效, 有隨機性的, 30%會發放當上遊信號到達。這樣隨機的發放如何能夠支持非常穩健和魯棒的智能?事實上這不是單純是生物限制,而是一種主動進化。因爲它可以提高系統的泛化性。

類似啓發在深度學習的體現就是dropout的技術,dropout可以模擬某些細胞和突觸發放的隨機性,卻可以在幾乎任何任務減少泛化誤差。

另一個重要的生物啓發是臨界,我們知道生物神經網絡的動力學處在穩定和混沌的邊緣,所謂一個臨界的狀態。從圖網絡傳播的角度,這個時候的網絡內部信息具有長程關聯,又不至於信息爆炸。

利用這個原理我們可以設計蓄水池網絡,這是一種在臨界態處理信息的RNN網絡因爲這個時候的工作效率最高。有意思的是,這個混沌和秩序邊緣的狀態非常像一個finetune的精細調參結果。大腦不可能調參,它是如何維持臨界態的?

這時候我們必須拿出自組織臨界的重要原理,通過引入負反饋, 我們可以使得臨界態處於一個系統的收斂穩定點狀態,從而在非常廣的參數範圍內,實現臨界。很多人認爲批量正則化BN使用了類似的原理讓神經網絡處於穩定的狀態。

餘山的另一個部分講座講解了如何設計能夠根據情境調節的神經網絡。我們知道人工神經網絡不能進行情景化處理(也就是依據不同情境調節自己的認知狀態),而這是大腦的本質特點。

背後的重要原理是大腦是個平行通路的系統,從sensory cortex進來的信息, 一方面直接通過視皮層層層抽象, 並輸入給運動皮層作動作決策(下意識動作),另一方面通過cortex進行認知推理,得到關於情景的高層信息, 再往運動皮層推(理解之上的動作), 類似於我們說的系統一和系統二。

我們能否根據這個原理設計一個神經網絡?因此我們可以在CNN中加入一個平行於前饋網絡context modulation 模塊(yu 2019)。這個模塊可以調控感知信息的處理過程。

事實上這個模塊更加類似一個學習的調控器,它可以根據識別到的情景對在網絡內傳遞的梯度進行調整,從而顯著緩解災難遺忘改善連續學習。因爲學習新內容的過程無疑會擦掉以往權重,這導致神經網絡很難持續不斷的學習到新的內容,而剛剛加入的情景調控模塊引入一個OWM算法, 也叫正交調節器。就是當這個模塊識別到情景的變化,就把權重的學習投影到與之前情景正交的子平面上。

Yu Nature Intelligence 2019

** 餘山的講座提到的核心點與吳思有相通之處,就是充分利用人腦的平行迴路原理。

腦與認知模塊總結:

如何利用腦啓發改善AI的模塊是我本次大會最喜歡的模塊, 從這裏,可以看到大家達成共識的點是 

1,大腦是個動力學系統, 很多動力學的基本原理對AI目前的致命缺陷有重大補充, 因果或邏輯可能蘊含在動力學裏。臨界很重要。 

2. 人腦的稀疏表示與符號注意AI和因果有重要聯繫 

3, 充分利用平行迴路設計系統

3 Consciousness AI

大會也涉及了當下認知科學和AI交叉領域的最hot topic - 意識,雖然只是一小部分、

會議邀請了研究意識問題的計算機科學家Manuel Blum 和 Lenore Blum兩個專家(夫婦)。

首先, 兩個科學家介紹了意識作爲科學的發展史。1988 年 科學家首次發現了意識的實驗證據 (FMRI evidences) , 之後人們從不同領域進入意識的研究, 比如神經科學, 哲學, 計算機。

之後Blum指出如果要建立一個意識的模型,它需要具備的特點。首先意識的模型並不等價於全腦模型,但是它必須符合湧現性的原理(複雜科學最重要的概念, 複雜從簡單中脫穎而出的一種跳躍變化), 而且構成意識的神經組織和非意識的組織應該是共享的而非隔離的(同樣腦區可以既處於有意識也處於無意識狀態)。

然後Blum指出瞭如何讓意識模型和計算機模型對應。它提出意識的功能是一個從長期記憶力提取短期記憶內容的提取器(類似一個pointer)。因爲我們的長期記憶事實上處於無意識狀態, 這個內容的數量浩如星海。

而短期工作記憶卻是你我都可以意識到的, 但它通常只有幾個bits。這個信息瓶頸可能就是需要意識來實現,它需要根據當下的任務和情景把和任務最相關的因子提取出來。 

這正是著名的(conscious turning machine) Baar's global workspace model 。這樣存在的意識可以迅速的把長期記憶的關鍵因素抽取到working memory裏,方便當下任務的執行,大大加強了系統的靈活性。

然後它指出意識可能的具體形態需要包含

1, inner voice 

2 inner image 

3 feeling 

4 thought

非常有意思的是, 意識在取出很多腦區後依然存在。最後Blum指出意識可能必要的模型組成成分: 

  1. Inner-dialogue processor  

    2  model-of-the-world processor

4 圖網絡專場

4.1 唐建 如何藉助圖網絡構建認知推理模型

深度學習需要認知推理已經是人所共知,但是如何實現,圖網絡是一個重要的中間步驟 。大家可能熟悉當下紅紅火火的圖網絡,但是不一定熟悉它的前身條件隨機場。唐建老師認爲, 這兩個模型分別對應人腦中的系統一和系統二認知。所謂的系統一我們可以認爲是system

I(graph network) 和system II(conditional random field) 認知模型。

基於圖的conditional random field模型可以對概率進行計算和推理。爲此我們定義一個potential function, 用條件概率乘積形式來表示不同節點間的依賴關係 , 但是這一定義形式往往過於複雜,優化也很困難。這種學習類似於人類較爲緩慢的總結關係規律的系統二推理。

而圖網絡則相反,利用message passing的思想, 得到node representation, 這中間我們並沒有直接模擬node和node間的統計關係, 但是我們可以通過擬合node上的label來獲取node之間的基本關係。因此這樣的學習更加類似於人類直覺思考的形式。

可否把兩者的優勢結合呢?

這就是最後要介紹的,如何把圖網絡和條件隨機場的優勢結合起來做推理。

整個框架類似於一個EM算法,我們由一個已知部分節點和邊的信息的圖網絡出發, 在E步驟我們需要由圖網絡的直覺做inference 推測 , 這樣我們會得到大量新的標籤, 而在M步驟這些新增加的標籤會輔助條件隨機場模型更好的算概率, 更新連接圖,我們得到一個循環。


如此的方法可以被用於知識圖譜推理。我們用馬爾科夫logic net 求解所有fact的joint distribution。然後再用圖網絡學習每個邏輯三元組的權重 有了三元組就可以預測每個事實是對的還是錯的。

整個思路就是首先可以基於system I (圖網絡)提供初始預測, 然後用system II基於這些比較初始的預測得到更加具有邏輯的結果,關係推理最終由一個概率圖來執行。

4.2 何向南 用圖神經網絡做推薦

這其實是一個非常有趣的topic因爲推薦系統本質上就是一個圖(由用戶和商品構成的bi-partite graph)。我們知道早期的推薦系統協同過濾主要是計算相似度。而當下的圖網絡則本質上用高階連接性建立協同過濾的信號。

通過信息傳遞得到推薦網絡的表示, 在此基礎上做推薦 。因此我們需要先定義從一個物品到用戶的message,然後通過節點和鄰居的連接度矩陣做message passing,得到任意兩個節點的相似度,這是我們可以預測某個未知商品和用戶關係的基礎。

在此之上,我們還可以加入用戶意圖。因爲一個人和物品產生交互的時候, 背後的意圖是不一樣的則推薦的機制不同。如何能夠對不同用戶的意圖下都學習一個表示就成爲關鍵。這裏我們可以巧妙的借鑑attention的機制, 學習一個和用戶意圖相關的權重。

最終我們還需要考慮推薦本身是一個行爲而非預測,因爲推薦的結果會反過來影響用戶的行爲(反身性), 很大程度阻礙模型發現用戶的真正興趣。現有的方法需要給一個用於修正這種偏差的bias, 比如降低popular 物體的權重 第二個是用對不那麼popular物品的 隨機曝光,

4.3 沈華偉 GNN的侷限性

圖神經網絡內核處在停滯不前的狀態。我們說深度學習是鍊金術,而事實上, 現在開始流行的GNN也是這樣一個鍊金術, 和深度學習類似。

當年大家分析CNN爲什麼能work , 那麼現在我們必須明白爲什麼GNN也work。大家看到GNN這麼強大的表達能力, 做推理, 做認知,做分子式,做物理,其核心都是圍繞圖 G = (V, E, E, X)做節點分類,邊分類和圖分類。

我們分析機器學習模型的表達能力, 通常是看它可以分開的模式數量。而GNN的表達能力能否用類似的角度研究呢?首先, 我們可以把問題定義爲GNN模型能夠分析的網絡種類。對於不同的網絡, 其主要特徵就是網絡的拓撲結構。

對於GNN其核心部分是Message passing,當經過一次消息傳遞,看起來無區別的節點就帶上其鄰居的信息, 當節點和節點的對外連接不同,這個信息就變得不一樣,因此在節點分類的角度, 經過一次信息傳遞,節點已經形成了根據自己鄰域拓撲特徵形成的聚類。

當然對於比較複雜的圖譜,一次傳遞可能是不夠的,經過兩次傳遞後, 關於網絡的更深層特徵就會進入到每個節點裏,從而使得節點的聚類體現更長程的鄰域結構。這樣的方法對節點的分類很有效但對圖整體的分類卻沒有那麼有效。

我們可以把所有節點的表示向量合起來作爲圖的整體表示,經過信息傳遞一些不同的圖結構明顯的被分類了, 而得到根據網絡相似度表達的metric,而且信息傳遞的次數越多似乎這個表徵能力越強。

然而按照這樣的思想傳遞N次後我們是否可以區分任何網絡結構呢?答案確實是否定的。我們可以證明對於特定的網絡結構傳遞多少次信息都無法區分其拓撲結構, 因此靠加大圖網絡深度提高其表示能力是有侷限性的。這個方法揭示了單純靠信息傳遞得到結果的圖網絡方法的侷限性。

所使用的分析方法叫做 WLtest區分,類似於把整個節點傳播過程用樹展開。最後看子樹的分佈。一階WL_tes通常認爲是 GNN表達能力的上界

這個分析從根本上揭示出GNN的侷限性,它似乎只是對圖的結構做了一個平滑 。

參考文獻:

Can you design a layer-by-layer network to achieve more powerful expressiveity than existing GNNs

How powerful are grpah neural nets ICLR2019

** 這個talk讓我想到用GNN做認知推理真的可靠嗎?目前來看, 似乎還有差距。看起來它依然只是一個模式識別的工具。感知 = 模式識別 ,而模式識別本身是夠不上認知的。

4.4 wang min jie 新的圖網絡工具箱

圖神經網絡本質基於消息傳播模式-message passing paradim,這裏面關鍵的是一個消息傳遞函數,一個累加函數。當我們假定消息傳遞函數是線性的,累加函數是average pooling, 且這些函數和特定網絡局域結構無關, 我們得到GCN。

如果你觀察這種結構表達方程,你會發現大名鼎鼎的page rank和GCN公式幾乎是同質的,都符合這個paradim。這說明我們可以設計一個更加靈活的工具箱,幫助我們設計新的圖網絡框架。

消息傳遞,累加, 都都可以擴展成爲更復雜的工具,甚至lstm。編輯圖神經網絡,可能用到已有神經網絡的模塊。新的面向圖神經網絡系統,需要和現有的深度學習平臺結合。這是deep graph library項目動機,它搭建了張量世界和圖世界的橋樑。

**這個講座有趣的地方不在於介紹工具箱而是對圖網絡精闢的總結。

5 知識智能專題

5.1 孫一舟 如何在深度學習里加入符號知識

符號主義AI在當下的精髓在於knowledge graph, 知識圖譜裏由無數的triplet(head, relation,tail)組成, 作爲知識的計算機的主體。但是單純知識圖譜是無法做認知推理的, 爲了完成這樣的任務, 我們需要把它和概率圖模型連接在一起。

6 強化學習部分

6.1 Statinder singh 如何讓強化學習做discovery

discovery 是強化學習非常重要的發現和探索過程。談到強化學習的探索,大家可能都很熟悉epsilon-greedy這一類簡單的隨機搜索策略。而一個大家往往不會注意的地方是獎勵函數。

獎勵函數不僅是一個有關遊戲目標的標量,事實上也可以存儲更多遊戲有關的知識,比如和探索有關的,這部分獎勵又稱爲內部獎勵(intrinsic reward),這類似於你並非因爲外在的物質獎勵而是由於內在求知興趣去探索發現的過程。

我們發現加入intrinsic reward 不僅可以,能夠發現一些不易發現的不變性 ,解決類似於於non-stationary 問題的探索問題。

** 其它一些有趣的點1 general value function ,generalize to any feature of states

2 引入question network 輔助task

PPT :blog.csdn.net/qq_411858

6.2 俞揚 更好的環境模型,更好的強化學習

強化學習在遊戲類任務裏取得了史詩級的成功幾乎在所有高難度任務裏擊敗人類。如果問這個勝利的根源,不是網絡的巨大,而在於環境。監督學習的原料是數據集, 強化學習則是它的環境。

比如圍棋遊戲的境法則固定, 因而可以無限量的取得數據。所以可以取得優秀的成績。強化學習agent的在環境中通過一定策略採集數據,學好策略,回到環境,驗證策略有沒有更好。如果環境規定固定,agent就擁有無限多的穩定數據,如同CNN擁有一個ImageNet。

爲什麼環境規則必須固定?因爲與監督學習針對固定數據分佈的情形不同的是,強化學習面對的數據不符合這一設定, 因爲遊戲的數據採集是按照一定策略來的, 當我們的策略發生變化,數據會發生變化。

監督學習通過的訓練集和測試集符合同一分佈假設, 而強化學習用於未來訓練的數據獲卻永遠來自歷史學習策略(如同我們看着後視鏡駛向未來),造成訓練不穩定。在封閉固定環境下隨着訓練的進行這種當下策略和未來策略的差距會逐步收斂。而在一個開放環境下則變得非常困難。

什麼辦法可以相對縮小真實環境和遊戲的區別呢?模擬器,模擬器實際等價於真實世界的縮影,可以預測在當下的agent做出選擇後,真實環境可能給以的反饋。

我們知道在很多領域如機器人控制 ,物流,流體動力學,我們已經在使用模擬器。雖然模擬器可以做, 但是精度可能不足,尤其是當環境更加複雜。一旦出現誤差這種誤差可能迅速隨時間擴大, 那麼如何解決這個問題?

我們可以從數據中學習一個模擬器,用監督學習的方法?從當下狀態S,和行爲 a 得到下一個時刻的狀態 S‘和獎勵R‘, 這是模擬器的本質, 這樣的模型可以有效解決誤差問題。有了模擬器對於真實環境的強化學習意義重大,因爲我們不再依賴真實世界,而可以通過想象中的世界訓練我們的值函數。

有關世界模型的關鍵是模型的可遷移能力。因爲隨着策略的更新數據採樣的區域很快放大(非iid分佈)。我們因此必須不停獲取數據更新世界模型。除此外我們還可以想辦法加強模型的魯棒性。

比如 我們可以把預測分解爲M(s'|s,a)* p(s,a)來假定狀態轉移矩陣和狀態之間的獨立性來增強可遷移性。還有比如利用類似對抗學習的優化方法,可以把長程優化誤差迅速縮小。

可學習世界模型的思想可以用於商品設計, 把顧客買家當成世界模型,學習顧客這個model。可以用於網約車, 可以學習一個司機的虛擬模型-模擬器。可以用於商戶揀貨問題, 學習工人和商品派單系統 world & agent,甚至學習一個砍價機器人, 從而提高所有電商, 推薦, 網約車等等商業問題的效率,非常有前景。

最後總結人類決策技術的進步史:專家決策 - 專家設計模擬器決策- 專家設計可以學習的模擬器來學習決策 - AGI?模型是強化學習進入真實世界的必經之路

**此處聯想世界模型和因果的聯繫,理想的世界模型是一個包含do 的因果model, 而且模型動力學和數據分佈獨立-便於因子化factorization。如同粒子狀態和作用力獨立(相互作用關係模型)。當這種假定是合理的, 結果將迅速提升。

PPT:blog.csdn.net/qq_411858

6.3 張偉楠 Model base reinforcement learning & bidirectional model

深度強化學習和無模型的強化學習是一對絕配,因爲無模型強化學習非常適合在深度神經網絡的框架裏來進行,然而離開遊戲場景無模型強化學習就會產生數據效率低效的問題,如果試錯無法從環境中得到有效信息, 試錯將毫無意義。爲了解決這個問題, 提出model base 是必須的。

基於模型的學習高效的一大原因是一旦模型學習到,可以直接在模型裏perform on-policy learning,從而極大提高數據的適用效率(on policy下數據採樣的集合和實施策略的集合是最匹配的)

後面的講座主要強調基於模型學習的優化方法, 一類所謂黑箱模型,例如dyna-Q, MPC 。模型本身也是未知的神經網絡。一類是白盒模型,即模型完全已知。

模型的加入可以提高數據適用效率,但是也會引入一定的bias。以黑盒算法 Q-planning爲例。當學好一個模型後, 我們可以從模型中採樣得到一個action sequence(想象中的行爲) ,從而計算得到accumulative rewards。

用術語說就是採樣一個軌跡 sample a trajectory, 如果模型本身是不準確的(主觀和客觀的差距)那麼這個差距會在整個軌跡放大。因此我們知道我們一方面要控制模型的精度,一方面要控制這個想象軌跡的長度。當前者模型誤差越小,後者軌跡可以抽樣的時間就越長 。

能不能有效改進這個方法呢?此處引入一個叫bidirectional model的模型改進 。什麼意思, 就是既考慮前向預測, 也考慮往歷史。以往的想象軌跡只考慮未來n步發生的事情,現在我還會推測之前發生的事情,以及如果之前採取其它動作,可能到達的狀態。這樣時間上的雙向性會縮小由於模型偏差帶來的誤差。

**此處是否想到因果的counter-factual呢?

PPT: blog.csdn.net/qq_411858

以上是我總結的內容,會議全部內容名單請見:2020.baai.ac.cn/

7 最終總結-世界模型

這次會議是特別有趣的, 不同領域的人根據自己的經驗提出了不同的approach在不同角度告訴我們什麼可能是達到AGI的最短通路 。那麼如果我總結什麼可能是一個最短的到達下一個AI階段的通路呢?

其實大會最終採訪LSTM之父施密特的對話很有意思。在對施密特的採訪中,他興高采烈的介紹了LSTM的崛起, 和他的貢獻,並認爲這是一個由大腦啓發的能夠解決大量不同實際任務的成功典範。

那麼我們回顧下LSTM爲什麼如此成功,首先,它是一個動力學模型, 與CNN那些前饋網絡不同,LSTM模型事實上可以對一個動力過程進行模擬。而我們的物理學嘗試告訴我們,世界的本質就是一臺動力學機器,每個齒輪的轉動拉動了整個宇宙向前。LSTM具有對宇宙齒輪的模擬能力,因此,它可以做不同的任務,學習不同的領域。

這臺機器具體包含哪些部分?它有一個記憶memory, 有一箇中央動力處理單元h, 是一個神經元互相反饋的通用圖靈機, 還有一個執行單元o,輸出對未來的預測和動作。

這個機器像大腦卻不是, 專家最後說施密特未來的神經網絡,lstm的接任者需要有什麼特徵。施密特很快堅定的說它需要更像大腦, 需要具有自我發現和探索的好奇心。

然後它需要一個能夠預測世界的,尤其是自我行爲對世界影響的world model, 以及一個能夠根據這些 知識做出行爲決策的行爲的action model, 這兩個model組成一個循環的反饋系統。這樣的模型可以像小孩子一樣從真實世界裏通過探索學習得到抽象的知識。

我們從這個角度出發,將看到此次大會的所有topic 的聯繫。這裏的第一個關鍵詞是world model,它圍繞獎勵而來,卻時時刻刻滿足着自己的好奇心,用來discover真實世界的抽象規律。

因果學派說的世界如同一個概率圖模型,每個節點之間的關係可以由節點的擾動(do)和它的影響刻畫。說的不正是這個充滿好奇的world model需要做的事情,根據自己的行爲或自己感測到的外界變化預測未來未知世界的關鍵?

而具體的這個world model的抽象能力, 不正是類似於在真實的世界中提取這樣一個核心變量組成的圖網絡?

因此圖網絡學派可能說對了世界模型的一個重要組成成分, 它卻沒有涵蓋這個圖是怎麼產生的這個最核心的議題,如何產生這張圖,這讓我們想到認知科學啓發專題的若干講座,大腦是如何完成這個工作的。

而world model不是關注世界所有的內容,而只關心和智能體完成任務最相關的信息,這就是強化學習的觀點, 或者叫做以行爲爲中心,以任務爲導向

當我們有了world model和action model, 而且world變得越來越複雜不能用一個模型來運轉的時候,是不是我們可以在此基礎上加一個超級觀察者或者叫self model,這個self model可以預測哪些部分的world model 需要進入到action model供action 決策,同時預測action根據這些信息的決策結果?這個self model是不是就是我們要的意識模型呢?

由此看, 這幾個流派已經貫穿成一體。最終我們要實現上述的任何步驟,無疑都需要向我們的大腦取經。因爲自然設計已經給了我們一份完美的解決上述通用智能問題的框架,當我們讓機器執行的任務和人越來越接近,無疑將會參考這份完美答案。

希望更多的人能夠對這個問題感興趣並加入到研究的隊伍裏(可加微信XUTie0609)。

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章