Gary Marcus:AI 可以從人類思維中學習的11個啓示

來源:AI科技評論

作者:Gary Marcus、Ernest Davis

編譯:陳彩嫺

1969 年圖靈獎得主、MIT 人工智能實驗室創始人馬文·明斯基(Marvin Minsky)在其1986年著作《心智社會》(The Society of Mind)一書中曾探討人類智慧的來源。他認爲,“人類的智慧源於人類社會的多樣性,而不是某個單一的、完美的準則。”

毫無疑問,近幾年人工智能的技術有了極大的飛躍,不僅打敗了圍棋與撲克比賽的世界冠軍,還在機器翻譯、物體分類和語音識別等領域取得了重大進步。

然而,其實大多數 AI 系統的關注點都十分狹窄。比如,圍棋冠軍選手“AlphaGo”雖然在與人類比賽中勝出,對圍棋本身卻絲毫不瞭解:它不知道圍棋遊戲進行的過程是由選手在棋板上落下石頭棋子,甚至不知道“石頭”、“板”爲何物。如果你將原先給它看的正方形網格板換成長方形板,你還要重新對它進行訓練。

換句話說,AlphaGo的“智能”是非常有限的。要想發展能夠理解文本或賦能通用家居機器人的人工智能技術,我們還要付出更多努力。紐約大學的兩位教授 Gary Marcus 與 Ernest Davis 認爲,AI 的下一個發展機遇是從人類思維“取經”,因爲人類在理解與靈活思考上的表現仍遠遠優於機器。

基於對認知科學(心理學、語言學與哲學)的思考,兩位作者提出了 AI 發展的 11 個建議:

 1 

AI理論切忌“立竿見影”

從行爲主義心理學(behaviorism)、貝葉斯推理到深度學習,科研人員常常是提出一些簡單的理論來希望解釋所有人類智慧行爲。

Firestone 與 Scholl 在 2016 年曾提出一個觀點:“沒有哪一種方法可以概括人類大腦的思考方式,因爲‘思考’並不是一個特定的事物。相反,大腦的思維由不同部分組成,每一部分的運行方式又不相同:人類大腦在觀察到一種顏色時的思考方式與計劃假期的思考方式不同,計劃假期的思考方式又與理解句子、移動肢體、記憶事實或感受情感不同。”

人類的大腦極其複雜多樣:擁有超過 150 個可以清楚辨別的大腦區域,約 860 億個神經元,數百個(或數千個)不同類型;萬億個突觸,每個突觸中又有數百種不同的蛋白質。

真正智能且靈活的系統很可能非常複雜,就像人腦一樣。因此,任何將智能簡單概括爲一個原理或一個“主算法”的理論都註定會失敗。

 

豐富的內在表徵

認知心理學的研究側重於內在表徵,如信念、慾望與目標,經典 AI 也是如此。

例如,爲了描述肯尼迪總統著名的 1963 年柏林之行,人們往往會增加一些事實,如 part-of(柏林,德國),visited (肯尼迪,柏林,1963年)。這些表徵聚集便形成“知識”,推理便是建立在這一基石上。在此基礎上,若你所推斷得到的事實是“肯尼迪拜訪了德國”,那麼你的推理便是不值一提的。

當前,深度學習試圖用許多能大約捕捉當下事件的矢量來進行粗略推理,但這根本無法直接代表命題。

在深度學習中,沒有能表示 visited(肯尼迪,柏林,1963年)或 part-of(柏林,德國)的具體方法;一切描述都只是粗略接近事實描述而已。深度學習目前在推理和抽象推理上停滯不前,因爲它一開始就不是用於表示精確的事實知識。一旦事實模糊,正確推理就很難。GPT-3 系統就是一個很好的例子。相關係統 BERT 也無法針對諸如“如果您將兩個獎盃放在一張桌子上並添加另一個,那麼您有多少個?”的問題給出可靠答案。

 3 

抽象化與泛化

我們所知道的許多事物都是非常抽象的。例如,“ X 是 Y 的姐妹”可以描述許多不同人之間的關係:Malia 是 Sasha 的姐妹,Anne 公主是 Charles 王子的姐妹,等等。我們不僅知道哪些人是姐妹,還知道姐妹一般指的是什麼,並將這些知識應用於個人。

如果兩個人有相同的父母,那麼我們就可以推斷他們的關係是兄弟姐妹。如果我們 Laura 是 Charles 和 Caroline 的女兒,並且發現 Mary 也是他們的女兒,那麼我們就可以推斷出 Mary 和 Laura 是姐妹。

構成認知模型和常識的基礎的表徵由抽象關係構建而成,並以複雜的結構組合。我們幾乎可以將所有事物抽象化:時刻(如“ 10:35 PM”),空間(如“北極”),特殊事件(如“林肯遇刺”),社會政治組織(如“美國國務院”) ,以及理論構造(如“語法”),並將這些抽象事物用於解釋或故事編造,從本質看複雜的情況,以此來推理世界上的各種事物。

 

 4 

深度構造的認知體系

馬文·明斯基曾提出一個觀點:我們應該將人的認知看作一個“心智社會”,該社會包含數十或數百種不同的 “agent”,每一個 agent 專攻不同類型的任務。

例如,喝一杯茶需要GRASPING agent、BALANCING agent、THIRST agent和其他 MOVING agents的相互作用。進化與發展心理學的許多工作都指明:大腦不只包含一種思維,而是許多種思維。

諷刺的是,當前機器學習的發展趨勢幾乎與上述觀點相反。

機器學習更偏好使用內部結構較少的單一同質機制的端到端模型,比如英偉達在2016年所推出的駕駛模型。該模型沒有使用感知、預測與決策等經典模塊,而是使用單一的、相對統一的神經網絡來學習輸入(像素)和一組輸出(轉向和加速指令)之間的直接相關性。

此類模型的擁護者認爲,“聯合”訓練整個系統的方法有許多優勢,不必分開訓練單個模塊。如果打造一個大的網絡更容易,爲什麼還要費心思去構建單獨的模塊呢?

事實上,如果“聯合”訓練整個系統,那麼這種系統很難調試,靈活性非常差。在沒有人類駕駛員的干預下,英偉達的系統通常只能良好運行幾個小時,而不是數千個小時(例如 Waymo 的多模塊系統)。Waymo的系統可以從A點導航到B點並進行車道變更,但英偉達的系統卻只能一直走同一條車道。

最優秀的AI研究員在解決複雜問題時通常會使用混合系統。

比如,在圍棋比賽中,若想取得勝利,就需要將深度學習、強化學習、博弈樹搜索與蒙特卡洛搜索相結合。Watson 在Jeopardy!上所取得的勝利,諸如 Siri 和 Alexa 的問答機器人,以及網頁搜索引擎都使用了“廚房水槽法”,整合了許多不同類型的流程。Mao等人在“The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision”中介紹了一種將深度學習和符號技術相結合的系統,該系統在視覺問題解答和圖像文本檢索方面產生了良好的結果。Marcus 在“The next decade in AI: four steps towards robust artificial intelligence”中也討論了許多種不同的混合系統。

 

 5 

用於簡單任務的多種工具

即使在細粒度模型中,認知體系也通常包含多個機制。

就拿動詞及其過去式來說:在英語和許多其他語言中,一些動詞通過簡單的規則(如 walk-walked,英語動詞原形後面直接加 ed)變成過去時態,另一些動詞通過不規則形成過去時態(如 sing-sang,bring-brought)。

根據小孩在將動詞變成過去時所犯的錯誤的數據,Gary Marcus 和 Steven Pinker 提出了一種混合模型。這種模型即使在微觀情況下也有小小的結構,其中規則動詞根據規則進行泛化,不規則動詞的過去時則通過一個關聯網絡生成。

 

 6 

  組合性

Humboldt 曾說過,語言的本質是“無限使用有限的方法”。在大腦與語言數據有限的情況下,我們成功創造了一種語法,使我們能夠說和理解數不清的句子。

在許多情況下,我們是通過較小的成分(例如單個詞語或短語)來構造較大的句子。比如“水手深愛這個女孩”這一句子,我們可以將它作爲一個更大句子的組成部分(瑪麗亞想象,水手深愛這個女孩),這個更大的句子又可以作爲一個更更大句子的組成部分(克里斯寫了一篇文章,文章是關於 Maria 想象,水手深愛這個女孩),等等。這些句子都很容易爲人理解。

相反,神經網絡領域的科學家 Geoff Hinton 一直堅持一個觀點:句子的含義應該以所謂的“思想向量”(thought vectors)進行編碼。但是,句子所表達的思想及句子之間的細微關係太過複雜,因此難以通過將表面上看起來相似的句子簡單組合就能理解句子所要傳達的意思。基於 Hinton 的觀點所構建的系統可以生成符合語法規則的文本,但隨着時間的推移與所生成文本的數量增加,系統會越來越無法理解生成的文本內容。

  

 7 

自上而下、自下而上的信息整合

下圖圖 1:圖片所示是字母還是數字?根據上下文,這張圖片既可能是字母,也可能是數字(參見圖 2)。

認知心理學家經常會將信息區分爲“自下而上的信息”(直接來自我們的感官)和“自上而下的知識”(即我們對世界的先驗知識,如字母和數字是不同類別,單詞和數字是由這些類別中提取的元素組成,等等)。當我們將落在視網膜上的光線與連貫的世界畫面融合在一起時,下圖所示的模棱兩可的符號在不同情況下看起來是不同的。

圖 1:可能是數字,也可能是字母

圖2:根據上下文而作的解釋

無論我們看到什麼、讀到什麼,我們都將其融入到一種情景認知模型中,並結合我們對整個世界的理解。

 

 8 

嵌在理論中的概念

在一個經典的實驗中,發展心理學家 Frank Keil 詢問孩子們:

“一個浣熊想要做整容手術把外表編程臭鼬,手術完成後身體裏留下“超級臭”的東西,這時候,浣熊是否變成了臭鼬?”

孩子們堅定地認爲浣熊無論怎樣都是浣熊,這大概是他們的生物學理論以及“生物的本質纔是真正重要的”的觀念使然。(孩子們沒有將相同的理論擴展到人造品上,例如被製造成喂鳥器形狀的咖啡壺。)

嵌在理論中的概念對於高效學習至關重要。

假設一個小孩第一次看到鬣蜥的照片。幾乎是一瞬間,這個小孩不僅能夠識別鬣蜥的其他照片,還能識別視頻中的鬣蜥和現實生活中的鬣蜥,並輕鬆地將它們與袋鼠區分開。同樣地,這個小孩能夠從關於動物的常識中推斷鬣蜥要喫東西、要呼吸、出生時體型很小、會成長、會繁殖、會死亡。

沒有一件事是一座孤島。要想獲得成功,通用智能需要將其所獲得的事實(facts)嵌入到有助於組織這些事實的更豐富的總體理論中。

 9 

 因果關係

Judea Pearl 曾強調,對因果關係的深刻理解是人類認知中一個普遍存在且不可缺少的部分。如果世界很簡單,我們對所有事情都有全面的瞭解,那麼我們唯一需要的因果關係就是物理學。我們可以通過模擬來確定是什麼影響什麼,比如,如果我施加微牛頓力,接下來會發生什麼?

但是,這種詳細的模擬是不現實的,因爲要跟蹤的粒子太多,時間太短,我們的信息也太不精確。

相反,我們經常使用近似值。我們知道事物是因果相聯的,即使不知道原因。就像我們服用阿司匹林,因爲我們知道這會使我們感覺好些,但我們不需要了解生物化學。因果知識無處不在,是我們大多數工作的基礎。 

 

 10 

   追蹤個體

在日常生活中,你會關注各種各樣的單個物體,包括它們的屬性和歷史。比如,你的配偶曾經是一名記者,你的汽車後備箱上有凹痕,去年你更換了變速箱,等等。我們的經驗由隨着時間的流逝而永存、變化的實體組成,我們所瞭解的許多事物都是由這些事物的相關事物與這些事物的單獨歷史、特質來組織而成。

但奇怪的是,這並不是深度學習系統所固有的觀點。

在大多數情況下,當前的深度學習系統專注於學習通用的、類別層面的關聯,而不是有關特定個體的事實。在沒有諸如數據庫記錄之類的概念,以及時間和變化的豐富表徵時,很難追蹤單個實體與所屬類別的區別。 

 

 11 

  先天知識

有多少思維結構被建立,又有多少思維結構被學會了呢?“天性 vs 培養”(nature vs nurture)的常見對立是一種錯誤的二分法。生物學(更準確來說,是來自發展心理學和發展神經科學)的研究證明:先天知識與後天學習是一起進行的。

很多機器學習的研究人員希望系統從頭學起。但從完全空白的狀態中學習,只會使學習變得更困難。這相當於沒有先天知識,只有後天學習。

最有效的解決方案其實是將“先天知識”與“後天學習”結合起來。人類很可能天生就能理解世界是由永恆不變的物體組成的,這些物體在時空的連接軌跡上航行,具有幾何形狀和數量的意識,還有直觀的心理學基礎。

同樣地,AI系統不應嘗試從像素與動作的關聯中學習所有內容,而應在一開始就以對世界的核心瞭解作爲開發更豐富模型的基礎。

 

 12 

   結 論

認知科學的研究發現啓發了我們對建立具備人類思維靈活性與通用性的人工智能的探索。機器不需要複製人類的思想,但對人類思想的深刻理解也許會帶來 AI 技術的重大進步。

我們認爲,AI 的下一步發展應從專注於執行人類知識的核心框架開始,包括時間、空間、因果關係,以及物理對象和人類及其相互作用的基礎知識。這些知識應該嵌入到可以自由擴展到各種知識的架構中,並始終牢記抽象、組合和追蹤個體的核心原則。

我們還需要發展強大的推理技術,以處理複雜的、不確定的、不完整的知識,並可以自上而下和自下而上地工作,並將這些推理技術與感知、操作和語言聯繫起來,建立豐富的世界認知模型。重點是構建一種以人類爲靈感的學習系統,可以利用 AI 擁有的所有知識和認知能力,將其學到的知識整合到其先驗知識中,並能夠像孩子一樣從各種可能的信息源中學習:學習與世界互動,與人互動,閱讀,觀看視頻,甚至被教導等。

這是一個艱鉅的任務,但是必須要做的。

原文鏈接:

https://cacm.acm.org/magazines/2021/1/249452-insights-for-ai-from-the-human-mind/fulltext

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章