他們提出了一個大膽的猜想:GWT(深度學習)→通用人工智能

來源:AI科技評論

編譯 :陳彩嫺

近日,有一篇發表在arXiv的論文“Deep Learning and the Global Workspace Theory”提出了一個大膽的猜想(或理論)。

兩位作者認爲,當下的深度學習已經可以基於一個意識模型,即“全局工作空間理論”(GWT),將處理不同模態轉換的神經網絡即功能模塊,結合爲一個系統,從而邁向實現通用人工智能的下一個階段。總結成公式就是:GWT(深度學習)→通用人工智能。

論文鏈接:https://arxiv.org/pdf/2012.10390.pdf

然而,深度學習的那些被人廣泛詬病的問題,如脆弱性、不可解釋性等等,可以通過這個框架來解決嗎?現在學術界一直提倡的結合知識、結合圖網絡、結合因果關係等觀點,他們又怎麼看待呢?

作者在論文中也部分地給出了自己的答案。他們認爲,該系統可以提高神經網絡的對抗魯棒性,實現Bengio提出的系統2認知,以及對於理解因果關係很重要的反事實推理等等。

這個理論是否可行,尚不可知,但其描繪的圖景值得一看。

1

論文摘要

隨着深度學習的不斷髮展,人工智能在許多感知、理解、語言與認知任務中已接近人類。然而,我們對開發基於大腦的認知架構的需求也在不斷增長。

全局工作空間理論(Global Workspace Theory)指的是一個將專業模塊網絡中的信息整合和分發,以創建更高級的認知和意識形式的大規模系統。

作者認爲,現在正是使用深度學習技術實現全局工作空間理論的時機。因此,他們基於多個隱空間(Latent Space:針對不同任務,在不同的感知輸入和/或模態上訓練的神經網絡)之間的無監督神經翻譯提出了一個路線圖,以創建一個獨特的非模態全局隱工作空間(Amodal Global Latent Workspace)。

2

大腦與機器中的認知神經架構

在機器學習的體系中,深度學習的特徵是使用在輸入與輸出層之間具有多個“隱藏”層的人工神經網絡。人工智能的許多最新突破,都要歸功於深度學習。神經科學家也指出了大腦與深度人工神經網絡之間的相似性與差異性。

深度學習的出現,使計算機能夠有效執行此前無法實現的感知與認知功能。在這篇論文中,作者等人希望將深度學習擴展至全局工作空間理論(GWT)。GWT是感知、執行功能甚至意識的基礎。

GWT是一種意識模型,最初由美國心理學家Bernard J. Baars等人提出,是當代主要的神經科學意識理論之一(圖1A)。

該理論提議將大腦分爲執行不同功能的專用模塊,模塊與模塊之間具有長距離連接。通過注意選擇的過程確定輸入或任務要求後,專用模塊內的信息可以在不同模塊之間傳播與共享。根據該理論,每一時刻的及時共享信息(即全局工作空間)構成了我們的意識知覺。從功能的角度來看,全局工作空間可以通過協調多個專用模塊來解決單個模塊的功能所無法解決的問題。

圖 1:大腦中的全局工作空間

如上圖所示,圖1A是GWT的示意圖。同心圓描繪了外圍(如感知輸入)與更多的中間過程,全局工作空間位於中心。每個專用模塊都是獨立處理信息。通過自下而上(基於重要性)或自上而下(與任務相關)的注意力來選擇輸出時,輸出可以進入全局工作空間。

在全局工作空間中,信息處理的特點是長距離的互連性強,因此可以將新的信息傳播到其他模塊。在任何給定時間內,專用模塊的子集都會依賴數據與任務被調到工作空間中。全局工作空間的內容反映了我們不斷變化的意識。

圖1B是GWT映射到(猴子)大腦。圖左,視覺信息可以通過視覺系統傳播,並激活以前饋方式控制行爲輸出的額葉區域——在這種情況下,信息是無意識的。圖右,當輸入足夠強大或與任務相關時,輸入將激活循環連接,導致全局工作空間“點火”(ignition,一個高度非線性、非零的過程)。

圖C是受Dehaene和Changeux啓發的全局神經元工作空間(GNW)實現,包含了具有前饋和循環連接的處理層的分層結構(LGN:外側膝狀體;V1 / V4:視覺區域;Par:頂皮質區;Front:額葉皮層)。

圖D所示的簡單循環網絡是全局工作空間的全或無“點火”的原因所在:與漏掉的或未檢測到的輸入(分別是Correct Rejection與Miss)相比,大腦有意識感知到的輸入(Hits)的主要特徵是額葉區域的全或無激活(或“點火”)。

Dehaene等人提出了該理論的神經元版本,即全局神經元工作空間(Global Neuronal Workspace )。根據GNW理論,當新的信息通過在前額葉、額顳葉和扣帶狀皮層中密集分佈着遠距離軸突的神經元網絡到達全局多個大腦系統時,意識通達就會產生(圖1B)。GNW關鍵方面的尖峯神經網絡實現,捕獲了全局工作空間理論的本質(圖1C)以及意識報告與神經元反應之間的已知關係(圖1D)。但這種方法是否能夠以足夠的靈活性擴展來解決人工智能中的問題,仍未可知。

在這篇論文中,作者提出使用深度學習的知識來實現全局工作空間理論。Yoshua Bengio將他最近的“意識先驗”理論與GWT明確地聯繫起來,但他的觀點主要強調機器學習的一些新穎理論原理(例如稀疏因子圖)。作者在這裏提出了一種互補的方法,其中強調使用當前可用的深度學習組件來實現全局工作區的實用解決方案,同時也關注大腦中的等效機制。

3

深度學習GLW的路線圖

在下文中,作者們嘗試一步步定義AI系統中實現全局工作空間的必要和充分組件。這些步驟構成了一個路線圖,研究人員可以按照該路線圖來實現這個目標。

需要強調的是,下面所描述的所有組件都是單獨存在,有些甚至在各自的功能上達到或超過人類水平。某些細節可能存在漏洞;此外,也可能有多種方法來實現全局工作空間。總體而言,作者認爲下文的策略最有可能成功。

3.1 多個專用模塊

GWT的第一個組成部分是N個(N≥2)獨立的專用模塊(具體參考論文中的Glossary),每個模塊都有自己的高級隱空間(隱空間的定義和示例,請參見圖2)。這些模塊可以是經過預訓練的、專門用於感知(視覺分類,聽覺分類,或目標分割)的神經網絡,可以是自然語言處理模塊,可以是長期記憶存儲模塊,可以是強化學習智能體,也可以是運動控制系統等等。當然,選擇這些專用模塊非常關鍵,因爲這決定了整個全局工作空間系統的功能,以及全局工作空間可能執行的任務範圍。但這不會影響下面列出的其他原則。

圖 2:深度學習隱空間的示例,指一個能夠捕獲輸入域或任務的相關結構和拓撲的低維空間,通常指判別模型的最後一個特徵層與生成模型的第一層。

深度學習隱空間的示例(投影到2D以進行可視化)包括:

A. MNIST數據集的隱空間。數據集中的每個圖像都是左側空間中的一個點,根據數字類別進行着色。定期在2D矩陣中對隱空間進行採樣會促進右側的圖像重建(使用UMAP逆變換方法創建)。

B. 詞嵌入空間(Word2Vec算法)。隱空間的不同部分專注於不同的語義域(例如插圖中的“sea”)。

C. ImageNet自然場景數據集(從BigGAN生成模型得出)的隱空間。每行沿着256維隱空間中的單個矢量採樣不同的點。

D. VAE-GAN模型的人臉隱空間。針對每一列,從隱空間中採樣一個點,然後向其中添加數量不等的預先計算的“微笑”或“男性”向量。必須強調的是,潛在表示(latent representations)本質上是神經激活的向量,可以使用代數運算(如panel D所示)進行內插(如panel A與C)、外推或更廣泛的操作。

從理論上講,將N個前饋判別模型連接在一起(每個網絡都經過訓練,可以根據類別對來自特定領域的輸入進行分類)便足以構建一個多模態工作空間(比如,當一個人聽到“老虎”這個單詞時,會預激活“老虎”的視覺識別單元)。

但實際上,加入生成模型的好處有很多:網絡能夠生成運動或語言輸出,還會生成具有自上而下的生成路徑的傳感系統,例如(可變的)自動編碼器、GAN與預測編碼網絡。

如果全局工作空間的目標是影響系統的行爲輸出,那麼包含生成網絡是非常必要的。此外,包含生成網絡對系統能夠具備創造力或“想象力”(比如生成心理圖像),對通過迭代構想一個可能的未來狀態或反事實狀態來進行思維模擬,意義都非常重大。最後,當一個輸入達到意識,且相應的模塊被移動到有意識的全局工作空間中時,一個循環的、自上而下的途徑可能是解釋從大腦中觀察到的“點火”特性的關鍵(圖1B與D)。

3.2 全局隱工作空間(Global Latent Workspace,GLW)

GLW是一個獨立的中間共享隱空間,在本質上是非模態的,經過訓練後可以在專用模塊的N個隱空間之間執行無監督的神經翻譯(圖3,本文的關鍵圖)。

儘管在深度學習中有許多監督多模態翻譯的例子,但在本文中,作者強調循環一致性是神經翻譯的主要無監督訓練目標。如此,GLW可能會在任何一對模塊之間進行轉錄,即使模塊之間沒有匹配數據(例如,沒有氣味與特定的視頻遊戲狀態進行系統關聯),我們也可以直觀地識別出玩家的狀態何時變得不同。

當然,如果默認的無監督神經翻譯策略也可以在有關聯數據可用時(例如,在觀看動物的同時聽到相應的聲音)補充有監督的目標,自然是最好的。按預期,這個中間空間的維數應該與每個輸入隱空間的維數相等或更高,但遠低於所有輸入隱空間的總和。這個“瓶頸”現象可以確保僅對相關信息在某個時間點進行編碼,並迫使系統優先處理帶有注意力的競爭性輸入。

圖3:深度學習“全局隱工作空間”的示意圖

如圖3所示,深度學習“全局隱工作空間”的專用模塊分佈在外圍,可以是針對各種任務的預訓練網絡:感知(物體識別,檢測,分割,語音識別...),運動(機器人手臂控制,語音生成…),語言(文本理解,機器翻譯,文本-語音轉換...),記憶存儲,或更高級別的與認知和行爲相關的功能(直觀物理引擎,RL策略,任務嵌入...)。每個模塊都通過模塊的相關隱空間的內部副本連接到GLW(如圖所示,位於中心)。

通過使用循環一致性目標進行深入訓練,這個工作空間學會了以幾乎無人監督的方式在任意兩個模塊的隱空間表示之間進行轉換,不需要或僅需要少數配對數據(紅色箭頭)。當自下而上或自上而下的注意力從一個模塊中選擇輸入時,其隱空間激活被複制到GLW中,並立即被轉換爲適用於其他各個模塊的表示形式。

但是,這些模塊中只有少數模塊(當前已移至工作空間中的模塊)將有效地接收和處理相應的數據。例如,在視覺場景中識別出老虎後,“老虎”的NLP單詞嵌入和與逃跑相關的行動計劃會出現在工作空間中;但是,如果此時在工作空間中採取了特定的相應模塊(文本到語音,運動輸出),那麼“老虎”一詞就只是發音,或啓動逃跑。

3.3 注意力

在大腦中,注意力決定了哪些信息能被有意識地感知,以及哪些信息會被丟棄(儘管注意力和意識可以分離)。同樣,在原始GWT中,由注意力選擇進入工作空間的信息。

在深度學習中,注意力在近期已經引起人們的關注,尤其是在NLP和CV中廣泛使用的transformer架構。在transformer和相關網絡中,注意力是一個網絡層發出的查詢與另一網絡層發出的查詢之間的匹配(在自注意力機制下,網絡可能是同一層);匹配分數確定將哪些信息傳遞到下一階段。

同樣地,我們可以設想一個鍵-查詢匹配過程,以選擇到達GLW的輸入。如果工作空間包含當前任務的潛在表示,則該信號可用於發送自上而下的注意查詢:每當輸入模塊的隱空間產生一個匹配鍵時,相關信息就會被帶入工作空間。

在沒有明確任務的情況下,或者在有異常強烈或令人驚訝的輸入的情況下,自下而上的注意可能會佔上風:在上述術語中,顯信息具有取代所有查詢的“主鍵”。以數據依賴和任務依賴的方式生成鍵和查詢的注意力機制必須通過使用特定目標函數的訓練來優化。

3.4 內部副本

當選擇一個特定模塊的信息進入工作空間時,隱空間激活向量的副本也會被帶入GLW。如果隱空間是概率性的(像在變分自動編碼器中一樣),就可以從概率分佈中獲取唯一的樣本——這可以確保始終保持GLW的統一表示,與我們的主觀經驗和神經科學證據保持一致。

3.5 廣播

被選上的信息很快得到廣播,即(通過共享的隱空間)轉換爲其他模塊的隱空間。這個轉換過程是自動的:無需其他努力就能有意識地理解我們的內部和外部環境。這也是有意識的輸入獲取“含義”的方式,因爲這些輸入會突然與相應的語言、運動、視覺與聽覺等表示形式連接。

這僅意味着,相關格式的相關信息對這些系統來說是“可用”的(作爲工作空間內的內部副本),但不一定要使用(如有效地複製到相應的模塊中)。人們不會總是形象化地聯想到一張心智圖像的細節,也不是總會說出他們的想法或心裏話,也並非總是按照運動計劃來行動,等等。

決定這些信息是否會被這些系統使用的,是它們本身目前是否已連接到工作空間(比如,由於它們的任務相關性)。許多在工作空間內廣播有意識輸入時自動形成的潛在表示不會爲自身有意識地感知,但可能與Crick和Koch所描述的“意識半影”(penumbra of consciousness)相對應。

4

GLW的功能優勢

本文介紹的GLW架構有一個主要的可測試特性,即整體應大於其各個部分(即各個模塊)的總和。換句話說,GLW的附加功能屬性也可以提高與其連接的所有模塊的性能。除了這些已有的單個任務外,全局工作空間還提供了組合模塊以執行全新任務的可能性。

首先,GLW中的自動多模態對齊表示是完成信息基礎的理想途徑。感知輸入或運動輸出不再是各自隱空間中的無意義矢量,而是與其他感知運動域中的相應表示與相關的語言表示產生了關聯,這促成了感知運動數據的語義基礎。

與語義信息的感知運動基礎相反,僅捕獲空心“語言標記”之間的長期統計關係的語言嵌入向量通過與感知環境或智能體的運動和行爲方式的相關部分進行關聯而得到轉換。

因此,感知運動接地(grounding)的概念與Gibsonian可供性(affordance)的概念緊密相關,且與Gibson在腦科學中的生態學方法有更廣泛的連接。最終,接地的潛在表示可以爲與全局工作空間連接的每個模塊提高性能,尤其是在提高分佈外樣本(包括所謂的“對抗”攻擊)的魯棒性方面。

雖然接地和可供性是信息進入全局工作空間的即時自動結果,但這種系統需要花費更多的時間和精力。事實上,以任務依賴的方式將任意模塊組合短暫地移動到工作空間中的能力,正是通用認知架構所需要的。

如此,通過將一個模塊的功能部署到另一個模塊的潛在表示上,系統可以從專用模塊中獲得更多常規功能。這種遷移學習使智能體能夠通過泛化先前已學習的模型來適應新的環境和任務,併成爲實現智能的核心條件。因此,作者提出以共享隱空間作爲意識平臺,彌合了意識與通用智能之間的理論聯繫。

當有足夠多樣化的模塊可用時,它們的可能組合實際上是無限的。取得這種靈活性需要付出大量的時間和精力:思維功能組合是一個緩慢而有序的過程,需要反覆使用自上而下的注意力,以調用相關的模塊,一次使用一個功能。這也是Kahneman和Bengio所說的系統2認知。

這種靈活的思維組成系統具有的一個主要功能是反事實推理,或回答“如果……會怎樣”的能力。這種能力是高級認知中絕大標誌性屬性的核心:想象力和創造力,規劃,思維模擬,關於未來的可能狀態的迭代推理。在這種情況下,世界模型(即環境對人的行爲做出反應的內部模型)在尋找新任務的解決方案上特別有用,因爲它們提供了任務獨立的相關信息,可以讓智能體通過內部模擬進行離線學習。

可以說,這些假設的功能優勢應轉化爲可檢驗的預測。每個模塊潛在的、得到改善的性能和魯棒性可以通過現有基準輕鬆驗證。雖然高級認知功能可能需要新的測試平臺,但遷移學習和任務組成基準已經存在。最終,這篇論文所羅列的優勢,是捕獲人類和動物的意識功能,以及邁向通用人工智能的途徑。

5

術語解釋:通過循環一致性進行無監督神經翻譯

在自然語言處理中,神經翻譯系統是一種使用神經網絡的機器翻譯算法。標準的(神經)機器翻譯是通過源語言和目標語言的匹配示例(單詞,句子)來學習。

但是,由於所有語言都表示外部世界的共同物理現實(所謂的語言基礎屬性),因此,從理論上講,完全有可能無需藉助匹配的語料庫(圖 I)就能在兩種(或更多)語言中學習對齊語言表示形式,這也被稱爲“無監督神經翻譯”。

最近人們提出了一種新方法,依賴於循環一致性的訓練目標:從語言A到語言B進行連續翻譯,然後從語言B翻譯到語言A,如果能翻譯回原來的句子,語言對齊就取得了成功。類似的方法已在不同領域之間的神經翻譯上得到應用,例如不成對的圖像到圖像翻譯,文本到圖像翻譯,或觸覺到圖像翻譯。通過循環一致性訓練進行的域對齊也是最近研究無監督域適應和遷移學習任務的研究核心。

圖 I:語言表示之間的對齊。來自任意兩種語言X和Y(本論文用的是法語和日語)的隱空間共享相似的拓撲,還可以通過變換W與共享的隱空間Z對齊。

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章