“AlphaGo創始人導師”演講:智能背後的科學與工程

原標題:MIT教授Tomaso Poggio演講與專訪:智能背後的科學與工程
導讀:3月15日,騰訊AI Lab第二屆學術論壇在深圳舉行,聚焦人工智能在醫療、遊戲、多媒體內容、人機交互等四大領域的跨界研究與應用。全球30位頂級AI專家出席,對多項前沿研究成果進行了深入探討與交流。騰訊AI Lab還宣佈了2018三大核心戰略,以及同頂級研究與出版機構自然科研的戰略合作(點擊 這裏 查看詳情)。
騰訊AI Lab希望將論壇打造爲一個具有國際影響力的頂級學術平臺,推動前沿、原創、開放的研究與應用探討與交流,讓企業、行業和學界「共享AI+未來」。


嘉賓介紹:3月15日上午,麻省理工學院大腦與認知科學系Eugene McDermott 教授,大腦、心智和機器中心(CBMM)主任Tomaso Poggio教授做了主題爲“智能背後的科學與工程(The Science and Engineering of Intelligence)”的演講。


Poggio教授是計算神經科學領域巨匠,研究領域涵蓋視覺系統的生物物理和行爲、人類和機器的視覺和學習的計算分析。他的研究極富開拓性,是被引用最多的計算神經科學家之一。他的兩位前博士後 Demis Hassabis和Amnon Shashua 分別是 DeepMind 和 Mobileye 的創始人。

0.jpg


演講內容

在本演講中,Tomaso Poggio介紹了AlphaGo和Mobileye這兩大人工智能領域近期取得的成就,並介紹到其成功是建立在深度學習和強化學習這兩種受神經科學啓發的算法基礎上的。但若要創造與人類同等聰明的人工智能,還需更多突破。本演講討論了這些突破可能是什麼,並且源自何處。


演講在硬件層面上,介紹了MIT大腦、心智和機器中心(CBMM)的研究項目、合作成果等,比如與不同研究中心的合作,在《科學》和《自然》雜誌上發表的研究成果,組織課程,登月(moonshot)項目,對心理物理學的研究實驗等。具體說明了樹突樹的生物物理性質能表現出比當今的 ReLU更強大的非線性,而在計算層面上,視覺智能的基本方面需要超越監督學習和無監督學習的架構。


以下爲演講全文(爲便於閱讀進行過適當編輯整理):


今天我會談一下智能背後的科學和工程。我在MIT進行過很多研究,但是我今天沒有時間過多談及這些。我會談談 MIT 最近推出的一項名叫 Intelligence Quest 的計劃。然後我會談談其後的歷史以及我們一些深度學習之外的研究。


首先讓我談談大家都已知道的故事——最近人工智能領域的一些成功故事,從 Atari 遊戲到 AlphaGo到單樣本學習再到無人駕駛等等。其中一些重大成果是由 DeepMind 和 Mobileye 這兩家創業公司實現的。有意思的是,這兩家公司的創始人 Demis Hassabis 和Amnon Shashua都曾是我的博士後學生。前者推動實現了 AlphaGo,後者則創立了 Mobileye。這兩項研究成果背後的核心技術分別是強化學習和深度學習。而這兩種都源自神經科學。

1.jpg


大家看一下這段有趣的視頻。這個項目從1995年開始做的,是我們和戴姆勒-奔馳的一個合作項目,也是最早將深度學習應用於計算機視覺的項目之一。當時我們訓練這個系統的目標是讓整個系統能識別出周圍的環境和物體。


視頻地址:視頻


這裏的視頻非常清晰地展示出了我們這個系統的工作方式。這段視頻拍攝自德國南部烏爾姆,這裏是愛因斯坦的出生地。可以看到系統在最後幾幀出現了一些錯誤,比如錯誤分類了交通信號燈和行人。當時的錯誤率是每三幀一個錯誤,也就是每秒鐘出現十個錯誤。科學家雖然對此感到高興,但這是無法實現實際應用的。而現在 Mobileye 的系統在同樣的任務上每30千米的駕駛距離纔會出現一個錯誤,準確率好了大約100 萬倍,也就是這 20 年來平均每年都提升一倍,這樣的進步是非常明顯的。

815.jpg



回到我的主題,深度學習和強化學習都源自神經科學。強化學習的早期起源是巴甫洛夫對心理學和動物行爲的研究,然後 Donald Hebb 最早提出將強化學習應用於機器和計算機。之後,Marvin Minsky 在 50 年×××發了一個名叫 SNARC 的系統,可以像老鼠一樣去解開迷宮問題。上圖右上角是這個系統的一個神經元,裏面有一些真空管。然後我們看到 Hubel 和 Wiesel 在 60 年代在哈佛對神經架構的研究。之後還有很多科學家和研究者推動了這一領域的研究發展,讓我們瞭解了大腦中的一些結構。這些研究成果爲今天的深度卷積神經網絡奠定了基礎,比如圖中所示的 ResNet。


那麼機器學習的下一個關鍵突破點在哪裏?從歷史上看,最早的成果就是來自神經科學,下一個應該還是來自神經科學或認知科學。

5911.jpg




接下來談談我們自己的工作。我們在 8 年前啓動了MIT Intelligence Initiative,之後變成了大腦、心智和機器中心(CBMM)。我是該中心的主任。這是 NSF(美國國家科學基金)超過 5000 萬美元的十年資助項目之一(2013~2023 年)。現在我們有了 MIT Intelligence Quest,它會爲MIT的所有部門提供智能技術,比如生物系。我們的核心目標是純粹的智能研究,而且研究領域涵蓋科學和工程。我們中心的目標就是在智能問題上取得一些進展。


我相信智能問題不僅是一些科學問題的核心,比如宇宙的起源、生命的起源、時空結構等等;而且也是我們所有問題中最大的問題,因爲只要我們在這一問題上取得進展,就能夠讓我們自己變得更加智慧,讓機器變得更加智能。我們就能夠快速地解決其它問題。此外,智能也是唯一一個可以在自然科學領域(包括神經科學、生物學、化學和物理學等)和工程技術領域(包括計算機科學和數學)同時探索的學科。所以這是唯一一個你可以同時獲得圖靈獎和諾貝爾獎的學科。


這不僅是科學技術的組合,也涉及到人與人的合作。MIT 和騰訊、IBM、微軟、谷歌等機構在科學和工程上都有良好的合作,這是MIT十分獨特的一面。

055.jpg

我們有來自不同研究中心的合作伙伴,其中有神經科學專家、計算機科學專家、認知科學專家。我們還有工業界的一些合作伙伴,有大公司也有小公司,比如 DeepMind、波士頓動力、Mobileye(我最近也加入了這家公司)。我們還有一個顧問委員會,有一些這個領域的主要科學家和我們合作。

119.jpg


研究成果方面,我們 2017年在《自然》和《科學》雜誌上發表了很多論文,數量超過 DeepMind 等機構。這不足爲奇,因爲我們非常專注於智能科學的研究。
0359.jpg


我們在過去四年裏還組織了一些課程。我們想培養出新一代的科學家,他們不僅將擅長機器學習,也會有計算機科學、神經科學、認知科學等學科的研究經驗。在這方面我們做得非常成功,並還將繼續努力進行下去。


接下我談談我們在深度學習之外的研究。這是我們其中一個登月(moonshot)項目,我們希望藉此瞭解我們的視覺智能。人有能力看到自己周圍的東西,能夠回答與此相關的近乎無限多的問題,比如這張圖:

427.jpg


我們可以看到這個場景中有多少桌子、坐了多少人、誰在說話、哪些位置是空閒的,你還知道需要繞過哪些障礙物才能到達目標。


我們是如何做到的呢?我們看看視覺系統底層的架構。可以看到視覺流流入大腦中的視覺區域,再進入大腦皮質中的特定區域,我們稱之爲大腦操作系統(Brain OS),這是大腦的推理中心,裏面可以用很小的程序實時地回答任何問題。

648.jpg



在我們的認知系統和物理世界的交互中,我們就產生了對世界的認識,理解了我們和世界的關係。這就是笛卡爾所說的“我思故我在”。這就是我們感知周圍世界的方案。我們正在努力通過神經科學和認知科學解答這些問題,當然也可能使用計算機模擬這個系統。


這是我們的登月項目之一。我要談談它的一個應用,這個應用也在反過來推動相關研究。我們知道,人的視覺感知中有很大一部分是幻覺。我們人眼中的視覺感知非常依賴於偏心距(eccentricity),所以我們一次只能注意到一定距離一定角度內的事物(手臂長度大約爲拇指寬/1度),其它內容都要靠我們腦補,是根據我們注意到的不同位置的圖像融合起來的。進入我們眼睛的可能是一張高分辨率圖像,但實際上我們感知注意到的是一系列低分辨率圖像。

710.jpg



這是我們的眼睛。

903.jpg



光從左邊進入眼睛,晶狀體將其匯聚到眼睛後部的感受器上。這個感受器會和視網膜神經節細胞通信,得到信息。合在一起就是我們所說的視覺神經。這些信號最後會被傳遞給大腦中的視覺皮層。光感受器很密集,但感受野只有一小塊區域。我們可以看到一個有趣的現象,視覺皮層的感受野的大小與光感受器的大小(也就是偏心距靈敏度)有關。這是來自 Hubel 和 Wiesel 的舊數據,展示了凝視視角與偏心距的關係。

924.jpg



可以看到,在所有的視覺區域,視覺範圍會隨偏心距增大。我們對採樣有一些推理得到的理論解釋。底部的感受野通常大小爲40×40,在上面有更大的感受野。小一點的感受野也許覆蓋了更小的角度,上面大一點的覆蓋了 5 度視覺角度。這樣的安排,就能自動應對大小和尺寸的改變以及不同的位置。這意味着對以前沒有看到的物體,比如你的臉,如果我向其它位置走一段距離,我仍然能認出那是你的臉。人的視覺能夠應對這種變化。這個發現很重要,具有革命性,可以在計算機視覺上得到應用。

950.jpg


最近,我們還研究了心理物理學(psychophysics)。我們用韓語字符測試了不認識韓語的受試者。我們將兩套韓語字符用不同的大小或在不同的位置呈現,然後問受試者這些字符是不是一樣的。這些字符的呈現速度很快,所以受試者不能移動他們的眼睛。可以看到我們測試了不同的距離(大小)和角度。如果我們去模擬這樣的過程,或許就可以做出非常好的深度學習模型。

112.jpg


看看我們的實驗結果。左邊是基於偏心距的現代深度學習模型,可以看到偏心距對準確度的影響不大(就像之前的心理物理學實驗一樣)。右邊是普通的深度學習模型。因此,這就爲我們帶來一種基於偏心距的策略,這種策略非常依賴於移動你的眼睛。這決定了我們能更輕鬆或更難以識別出某些物體。

133.jpg


我再回過來談一談深度學習的問題。深度學習有個奇怪的地方:它非常成功,但我們不知道爲什麼。我們至少有三個理論問題需要解答。第一個是近似理論問題:深度網絡何時以及爲什麼比只有一個隱藏層的淺網絡更好?第二問題是關於優化。第三問題是關於學習的泛化能力。


對於這三個問題,我們有一些答案。我們知道,八十年代以來,淺和深度網絡都可以實現輸入和輸出之間的映射。但它們都面臨着維度災難(curse of dimensionality)的問題,也就是說所需參數的數量會隨着數據的維度指數級增長。

152.jpg


現在,對於某些我們稱之爲局部組分函數(local compositional function)的特定類別的函數,雖然淺網絡的參數數量還是會隨維度而指數增長,但深度網絡的參數只會隨維度線性增長,從而能夠避開維度災難。這也是深度網絡相對於淺網絡的一個優勢。

210.jpg



時間有限,對於其它兩個問題我就簡單談談。對於第二個問題,如果對深度網絡採用標準的使用方法,通常需要非常多的參數,有時候這些參數的權重的數量會超過訓練集中數據點的數量。比如,對於 CIFAR,可以有 30 萬個權重,而圖像只有 6 萬張。這樣你事實上就會有無窮多個解決方案,所以不難找到一個。


第三個問題更重要:爲什麼訓練後的深度網絡能泛化到新的數據上呢?答案和動態系統的性質有關,涉及到梯度下降。

228.jpg


分類任務的特定性質與深度網絡很契合,但分類任務只是智能任務中的一部分。現在整個科學界都在努力建立全面且優雅的深度學習理論。總而言之,我認爲深度網絡並不是智能的最好解決方案,可能只能解決10% 的智能任務。我們要基於神經科學和認知科學來尋找更好的解決方案。


謝謝!


延伸閱讀

導讀:三月,受騰訊 AI Lab 學術論壇邀請,機器之心在深圳採訪了深度學習理論研究著名學者 Tomaso Poggio。他以平直易懂的語言介紹了自己的「長篇系列工作」,也談了談他對理論指導實踐以及仿生學指導深度學習算法發展等觀點的看法。本文爲機器之心原創,作者爲邱陸陸,轉載請聯繫公衆號獲得授權。


Tomaso Poggio 的知名度,有相當一部分來源於他異常出色的導師身份:DeepMind 創始人及 CEO Demis Hassabis 和 Mobileye 創始人及 CTO Amnon Shashua,都是他的學生。這兩家公司一個創造出了擊敗了圍棋世界冠軍、重新定義這個項目的 AlphaGo,另一個將輔助駕駛系統裝進了全球超過 1500 萬輛車裏,製造了世界上第一款能在終端進行深度神經網絡推理的量產車型的系統。Poggio 本人不僅鼓勵他的學生們以創業的形式將深度學習帶進現實世界,也親身投入指導了這兩家公司的早期創立。


然而在學術界,Poggio 的知名度更多來自於他的深度學習理論研究。他的論文非常好辨認——命名方式簡單粗暴如同長篇系列小說的就是他,《深度學習理論 II》,《深度學習理論 IIIb》…… 

251.jpg


這個編號系統來自他對深度學習理論問題進行的拆分:在 Poggio 看來,深度學習理論研究問題分爲三類:


 • 第一類是表達(representation)問題:爲什麼深層網絡比淺層網絡的表達能力更好?

 • 第二類是優化(optimization)問題:爲什麼 SGD 能找到很好的極小值,好的極小值有什麼特點?

 • 第三類是 泛化(generalization)問題:爲什麼參數比數據還多,仍然可以泛化、不過擬合?


對於每一類問題,他都嘗試以應用數學工具爲基礎,通過舉出能夠用數學語言進行描述的例子然後給出解釋的方式,用理論推導(也輔以一定的實驗驗證)來說明自己的觀點。


深層網絡表達組合函數的超強能力


早在 2002 年,Poggio 和著名數學家 Steve Smale 就合著了一篇論文[1],總結了那些經典學習理論,它們的共同點是,都相當於具有單一隱藏層的網絡。Poggio 是這樣解釋他研究「表達」的初衷:「當時我們就提出了一個問題:爲什麼大腦具有很多層?爲什麼當傳統理論告訴我們使用單層網絡的時候,大腦的視覺皮層其實在用許多層解決這一問題?」


毫無疑問,目睹了深度網絡的成功後,同樣的問題再一次被擺上了檯面。


Poggio 認爲,事實上無論是深層網絡還是單層網絡,都能相當不錯地近似任意連續函數——這也是上世紀 80 年代的學者們通常忽略多層網絡而採用單層網絡的原因。但是,問題的核心在於表達清楚一個函數所需要的維度:單層網絡需要的單元數非常多,甚至比宇宙中的原子數還要多。這就是數學上所說的「維度災難」:參數的個數需要是方程維度的指數倍。


爲了跳出維度災難,過去的數學家嘗試假設方程的光滑性:他們發現,維度災難取決於「維度除以光滑性」。而深度學習給出了針對一類特定函數的獨特方法:如果近似的對象是一個組合函數,換言之,是一個函數嵌套函數的大函數,那麼深度網絡擬合它所需的單元數和函數的維度是線性關係。換言之,無論維度多大,深度網絡都能夠擺脫維度災難來擬合這個函數。


現在,能夠被深度神經網絡很好地擬合的數據都具有組合函數的特點。以圖像爲例,想要分類一張圖像,並不需要同時觀察左上角和右下角兩個相距甚遠的像素,只需要觀察每一小塊,再將它們組合在一起。有了這種「組合」(compositional)的性質,當卷積神經網絡被用來刻畫圖像,甚至不需要參數共享的幫助,就能輕易擺脫維度災難。


而那些現在還不能被神經網絡刻畫得很好的數據,通常都不是組合函數。但是知道「組合函數和神經網絡很配」還遠遠不夠,Poggio 說,「作爲計算機科學學者,甚至作爲數學家,我們能不能進一步解釋一下組合函數,給出一些比『它是組合的』更明確的性質,從而更好地理解神經網絡的工作機制。這對於我來說也是一個非常有趣的、希望更多研究者投入精力的開放問題。」


優化的致勝:取之不盡的參數和性質漂亮的 SGD


解線性方程組的時候,如果未知量的數量大於方程數,我們將收穫很多解。


拿神經網絡處理數據的時候,以圖像舉例子,包含 6 萬張訓練數據的 CIFAR 數據集,通常會用一個包含數十萬乃至上百萬參數的神經網絡進行處理——一個教科書般的過參數化(overparameterization)例子。


將神經網絡近似看成一個多項式——把每個具有非線性的小單元都用一個單變量多項式替代,得到一個由數十萬乃至上百萬多項式組成的大多項式,此時,想要在 CIFAR 上獲得 0 訓練誤差,就轉化成了一個解 6 萬個線性方程的問題。根據貝祖定理(Bézout's theorem),此時的解的數量比宇宙中的原子數量還多。另外,參數多於數據量帶來了「退化」(degenerate)性質:每一個解都對應着一個無限大的解集。


因此,過參數化意味着,神經網絡有無限多個退化的全局最優解,它們在損失空間裏形成平坦的谷地。


而衆所周知,隨機梯度下降(SGD)的特性就是會以較高的概率傾向於停留在退化的谷地裏,即,停留在全局最優解上。二者的結合,就讓神經網絡的優化變得輕鬆:確定有全局最優、有很多,它們的特徵明顯,很容易被優化算法找到。


就算過擬合也能泛化:分類問題與交叉熵的絕妙搭配


過參數化是優化的福音,同時也是泛化的噩夢。在經典機器學習裏,隨着優化進行,測試錯誤率會呈現一條先減後增的 U 型曲線,尤其是模型規模與數據規模不匹配的時候,後半段的過擬合是十分可怕的。


然而在深度學習裏,泛化錯誤率卻經常呈現一個「下降,然後停住不動」的態勢,即使不是零,也能保持在一個相當低的水準上。


Poggio 對此的解釋是:這是深度學習所進行的任務與所用的損失函數之間的特定組合帶來的美好化學反應。


具體來說,就是大多數神經網絡都是用來解決分類問題(而不是迴歸問題)的,錯誤率通常以 0-1 損失計算,而目標函數卻通常是交叉熵。


這種差異是因爲 0-1 損失函數是好的效果衡量指標,卻並不適合做優化的目標函數。拿手寫數字分類器舉例,神經網絡分類器最後是通過 softmax 轉 hardmax 來選擇分類類別的,這也就意味着,即使模型認爲一張「1」的圖像是「1」的概率只有 30%,但只要這 30% 是所有 10 個可能性中最高的,模型仍然會將這張圖像分類爲「1」。一個信心水平只有 30% 的模型,即使分類正確,也遠稱不上一個好模型,需要繼續優化。但是,如果選用 0-1 損失函數作爲目標函數,只要分對了,該樣本的損失就是 0 了,沒辦法計算梯度,也自然沒辦法進行反向傳播來優化參數。


選用交叉熵做損失函數就沒有這個煩惱,你可以一直優化到信心水平無限接近 100%。


而交叉熵函數與 0-1 損失這對組合的奇妙之處在於,即使測試集上的交叉熵過擬合了,分類誤差也不會過擬合。


幾個月前,芝加哥大學的 Srebro 組的工作 [2] 證明了:對於單層線性網絡來說,如果數據集噪聲較小、可分,那麼即使交叉熵過擬合了,分類誤差也不會過擬合。


「這是一個非常優美的,角度獨特的工作。在此之上,我們用微分方程動力系統理論的工具證明了,在全局最小值附近,深度網絡表現得就像一個線性網絡。因此,我們可以將 Srebro 工作的結果用在深度學習上,說明即使神經網絡分類器的交叉熵過擬合了,分類器本身也不會過擬合。」


交叉熵的這一性質是最小平方誤差(least square error)等其他損失函數所不具備的,擁有這一性質的最簡單的損失函數是指數誤差(exponential loss)。而當我詢問究竟是交叉熵的哪些特質讓它擁有了如此特別的性質,是否和它的不對稱性有關,Poggio 表示這仍然是一個有待討論的問題。


以上就是 Poggio 的「深度學習理論三部曲」的內容概要了,詳情請參閱 [3-7]。


除了他的工作本身,我們也和他聊了一些關於深度學習理論工作的其他問題:


平坦的極小值意味着好的泛化能力嗎?一個觀點轉變


關於極小值的形狀與泛化之間的關係,Poggio 說,他的觀點轉變了:「確實有學者在工作中表示,平坦是有利於泛化的。大概一年多以前我也曾經發表過類似的觀點,但是我現在不再這麼認爲了。」


在關於優化的研究中,Poggio 證明了平坦確實會讓優化過程變得容易,平坦的最小值也有更大可能是全局最小值。「但是我不覺得它和泛化之間有直接的聯繫,起碼現在沒有。如今對於泛化能力的研究,依賴於分類問題、依賴於損失函數的選擇,卻不依賴於平坦。Bengio 兄弟兩人都參與的一篇論文就證明了,陡峭的極小值也是可以泛化的 [8],因爲你完全可以通過改變不同層的參數,在不改變網絡的輸入輸出關係的前提下,讓一個平坦的極小值變得陡峭。」


另外,他也認爲完全平坦的極小值是不存在的,起碼對於現在這種以多項式網絡爲基礎添加非線性的神經網絡來說,是不存在的。「我們都知道,一旦多項式在一個解集上都爲 0,那麼這個多項式處處爲 0,因此,我不覺得存在完全平坦的極小值了。」


對應用側的建議:小心過擬合


致力於應用深度學習算法的工程師們最經常對深度學習的理論研究者提出的一個問題就是:「你的工作很棒,但請問這能如何幫助我訓練我的模型?」瞭解更多的理論知識當然具有啓發意義,但是理論研究範圍廣闊且往往十分艱深,究竟哪些理論研究有助於應用開發者,應用開發者應該瞭解理論到何種程度?


機器學習裏的無免費午餐定理(No Free Lunch Theorem),也就是 Wolpert 在 1996 和 1997 年發表的兩篇著名論文裏 [9, 10] 所提到的,學習算法之間沒有先驗區別,對於任何兩個算法 A 和 B 來說,都存在一樣多的兩堆目標,對一堆目標來說 A 的檢驗誤差比 B 高,對另一堆來說 B 的檢驗誤差比 A 高。Poggio 援引了無免費午餐定理到理論研究中:不存在一個適用於所有問題的算法,類似地,也很難給出一個普適性正確的理論陳述。


「理論通常給出的是通常情況或最壞情況的分析,他們給出建議,告訴你應該做/不做什麼,以避免最壞情況的發生。但是理論無法告訴你,對於一個特定案例來說,最佳方案是什麼。」


而他對今天的深度學習應用者的建議是,小心過擬合。


「在過去幾十年的機器學習發展史中,我們學到的一課是,如果你的數據集沒有大到排除過擬合可能性,那麼在一個特定數據集上的最佳方法通常是過擬合的、無法擴展到其他數據集上的。並不是說學者們『偷看』了驗證集測試集,而是當一個社區的學者都在用不同的方法進行試錯,那麼一段時間後的最佳做法通常是過擬合了這個特定數據集的。」


「我曾經是一名物理學研究者,在我的學生時代,最普遍的經驗法則是,如果你想建立一個參數爲 n 的模型,那麼至少要有規模爲 2n 的數據,如果你想從統計的角度得出一些結論,更爲推薦的數據規模是 10n。然而現在的深度學習研究者傾向於對所有問題都套用有數百萬參數的模型。我們得出的『深度學習模型不受過擬合困擾』的論證只適用於特定問題(分類)、且要求數據集質量良好(可分),因此深度學習研究者應該對過擬合持有更謹慎的態度。」


如何看待先驗?理論研究能夠告訴我們哪些關於先驗的結論呢?


人是很好的學習者,既不需要數百萬數據,也不需要數據有標籤,而這部分取決於我們與生俱來的、寫在基因裏的先驗知識。然而,關於先天與後天(nature versus nurture)的爭論從未停止。


「模型需要多少先驗,是一個不能一概而論的、沒有簡單答案的問題。」Poggio 總結道,「理論研究的目的是找到能夠做出特定預測所需的先驗的下限。」


他以迴歸問題舉例,「對於給定一些數據點來恢復一條曲線的任務來說,如果你什麼都不告訴我,那麼除非給我曲線上的所有點,否則我基本上什麼也做不了。連續是一個必須的先驗,但這還不夠。我起碼需要類似平滑(smothness)這樣的性質,才能進行預測。而最重要的還是數據量,樣本複雜度和先驗之間,存在一個權衡取捨的關係。」


深度學習能從人腦的學習過程中學到什麼?


三十年前,「深度學習之父」Geoffrey Hinton 用利於優化且計算高效的「反向傳播」將整個領域帶入了高速發展,而近年來,他則致力於尋找比反向傳播更有可能在仿生學(bionics)上成立的結構。


MIT 對於深度學習的研究素來與腦神經科學結合緊密,Poggio 是如何看待這一問題的呢?


「我認爲從生物學上完成反向傳播並非完全不可能(not impossible),只能說,根據我們現在對神經元以及信號傳遞機制的瞭解,可能性不大(unlikely)。然而我認爲真正不可能的是對所有樣本的標註。」


「因此一個有趣的研究課題是,大腦是如何『繞開』標註的。例如,一個有趣的假設是,我們的視覺系統是以學習給圖像『填色』來進行預訓練的,它接收到了顏色信息,卻只給其他視覺皮層以黑白的灰度信息,以此訓練一個能夠預測顏色的網絡。在這個設定下,你不需要『神諭』(oracle)來告訴你真實的顏色是什麼,你是有這部分信息的,只不過通過把它藏起來而建立了一個可以進行優化的模型。」


「類似的假設還有,大腦在不斷地預測下一幀影像並進行優化等等。而能夠預測顏色的、預測下一幀影像的視覺系統,是不是能夠更好地進行其他視覺任務呢?是不是能夠利用更少的數據就能學會識別物體呢?這都是有趣的開放問題,而且一旦得到答案後,將對深度學習產生巨大的推動。」


Reference

1. Cucker, F., & Smale, S. (2002). On the mathematical foundations of learning. Bulletin of the American mathematical society, 39(1), 1-49.

2. Neyshabur, B., Tomioka, R., Salakhutdinov, R., & Srebro, N. (2017). Geometry of optimization and implicit regularization in deep learning. arXiv preprint arXiv:1705.03071.

3. Poggio, T., Mhaskar, H., Rosasco, L., Miranda, B., & Liao, Q. (2017). Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review. International Journal of Automation and Computing, 14(5), 503-519.

4. Liao, Q., & Poggio, T. (2017). Theory of Deep Learning II: Landscape of the Empirical Risk in Deep Learning. arXiv preprint arXiv:1703.09833.

5. Zhang, C., Liao, Q., Rakhlin, A., Miranda, B., Golowich, N., & Poggio, T. (2018). Theory of Deep Learning IIb: Optimization Properties of SGD. arXiv preprint arXiv:1801.02254.

6. Poggio, T., Kawaguchi, K., Liao, Q., Miranda, B., Rosasco, L., Boix, X., ... & Mhaskar, H. (2017). Theory of Deep Learning III: explaining the non-overfitting puzzle. arXiv preprint arXiv:1801.00173.

7. Zhang, C., Liao, Q., Rakhlin, A., Sridharan, K., Miranda, B., Golowich, N., & Poggio, T. (2017). Theory of deep learning iii: Generalization properties of sgd. Center for Brains, Minds and Machines (CBMM).

8. Dinh, L., Pascanu, R., Bengio, S., & Bengio, Y. (2017). Sharp minima can generalize for deep nets. arXiv preprint arXiv:1703.04933.

9. Wolpert, D. H. (1996). The lack of a priori distinctions between learning algorithms. Neural computation, 8(7), 1341-1390.

10. Wolpert, D. H., & Macready, W. G. (1997). No free lunch theorems for optimization. IEEE transactions on evolutionary computation, 1(1), 67-82.


轉載聲明:本文轉載自「騰訊AI實驗室」


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章