專訪圖靈獎得主Yoshua Bengio：AI能否有“意”爲之？

本文爲 Robin.ly 授權轉載，文章版權歸原作者所有，轉載請聯繫原作者。

Yoshua Bengio是世界級人工智能專家和深度學習“三巨頭”之一，在2018年與Geoffrey Hinton和Yann LeCun共同獲得圖靈獎。現任蒙特利爾學習算法研究所（Mila）創始人和科學主任，蒙特利爾大學教授，迄今發表過300多篇學術文章，引用超過8萬次。

Bengio在剛結束的NeurIPS 2019大會上發表題爲“從系統1深度學習到系統2深度學習”的主題演講，提出深度學習正在從直觀的、無意識的靜態數據集學習，向具有意識、推理和邏輯的新型架構研究轉變。

Bengio在大會現場接受了Robin.ly特邀主持人、MIT的助理教授韓鬆的專訪，深入討論了具有“意識”的深度學習方向、再度興起的“元學習”研究、以及AI模型訓練的能源消耗問題，並針對目前AI領域的壓力競爭環境給年輕研究者提出了懇切的建議。

因爲信念，所以堅持

韓鬆：早上好 Yoshua，感謝您接受我們的採訪！您已經在深度學習領域工作了數十年，能否與我們分享一下您在這些年的研究歷程和經驗？

Yoshua Bengio：

研究人員對自己的科研想法有着深厚的感情，我也一直對自己的研究充滿熱情。我很喜歡一個所謂的“精彩假設（The Amazing Hypothesis）”，即可能存在一些簡單的原理，能夠解釋我們的智能。我在1985 年左右開始閱讀神經網絡的相關論文，對Geoffrey Hinton研究組的論文印象最爲深刻。我當時就決定要從事神經網絡方向的研究，幾十年來一直如此。

2018年Yoshua Bengio與Geoffrey Hinton和Yann LeCun共同獲得圖靈獎

在80年代後期，從事這方面研究的人還很少，但大家對神經網絡的興趣開始日漸濃厚。我在1991 年獲得了博士學位，但隨後的幾年，隨着其他機器學習方法的興起，人們對神經網絡的興趣開始逐漸下降。

正是我對這些想法堅定的信念，支持我在很長一段時間持續從事這個方向的工作。同時，我還更多地瞭解了神經網絡以及包括內核方法（Kernal method）在內的其他方法的侷限性，從數學上更直觀地肯定了我的直覺。

在過去十幾年中，得益於成功的應用案例，深度學習方向的研究出現了爆炸式增長。它不僅成爲大學中的一門科目，還產生了重要的社會和商業價值。在深度學習改變社會的過程中也可能會產生負面的結果，我們對此也應該肩負起責任。

從“注意力”到“意識”

韓鬆：昨天，您做了題爲“從系統1深度學習到系統2深度學習”的精彩演講，其中的核心內容是注意力模型和具有意識的深度學習。能否進一步分享一下您對這個問題的想法？

Yoshua Bengio：

有一個很有意思的現象，在許多科學社區，人們往往會避免談及跟“意識”有關的概念。但是在過去的幾十年中，神經科學家和認知科學家對“意識”的認識更加清晰了。目前，我們開始可以利用機器學習（尤其是深度學習）去研究神經網絡架構和目標函數/框架來實現某些具有”意識”的功能。對我來說，最令人興奮的是這些功能可能爲人類提供進化優勢。而這些功能也可以幫助我們提高人工智能技術。

系統1深度學習與系統2深度學習比較，來源：Yoshua Bengio

韓鬆：對於“意識”與“注意力”之間的關係，是不是可以說，“注意力”是尋求從高維度無意識集合到低維度有意識集合的映射，從而實現更有效的泛化呢？

Yoshua Bengio：

你說的很對。根據我的理論，對於一次只選擇幾個變量的機制，你可以將其視爲正則化函數（regularizer）和對世界的先驗假設 (priori)，人類可以利用這一假設形成我們能夠用語言處理的高級概念。如果我說：“我扔出一顆球，它會掉在地上”，這句話只涉及很少的概念，注意力只會選擇正確的詞和概念，而且這些詞彼此具有很強的依賴性。例如，我可以預測某些動作的結果，這也是該句子所陳述的內容，會給該事件的發生帶來很高的可能性。在某種程度上，我們能夠使用很少的信息和很少的變量對未來做出這樣的預測，是非常了不起的。這種注意力機制可以對應於我們如何組織關於世界認知的假設，即關於知識表徵和語言的假設。因此，我們用語言來處理的各種概念會與我們大腦中具有最高表徵的概念相對應。

韓鬆：不僅是語言，就如您在最近發表的循環獨立機制（Recurrent Independent Mechanism，RIM）文章中所展示的那樣，強化學習也是如此。比如 Atari 遊戲，它與傳統的循環神經網絡（RNN）相比，具有強大的泛化能力。

Yoshua Bengio：

是的。我認爲對於學習機器（learning machine）而言，這種對意識的看法對於智能體（agent）尤其重要。智能體是指能夠在某些環境中運行的個體，像人、動物和機器人。智能體面臨的一個重要問題是周圍的世界一直在發生變化，它們需要快速適應和理解這些變化。我在文章中提出“意識機制”可以通過對碎片化的知識進行動態重組來幫助這些智能體應對各種變化。我們在實驗中也的確發現，這種具有意識的結構可以使我們能夠泛化到比訓練數據更長的序列。

韓鬆：這樣我們也不再需要對數據進行隨機排序操作（shuffle）。

Yoshua Bengio：

是的。實際上，當我們打亂數據時，其中包含的信息也被破壞了。比如數據中包含一個結構信息，在數據被隨機排序後，那個結構就消失了，而這種結構跟收集信息的具體時間密切相關。可能在最開始，我們處於某種數據狀態，然後發生了某種變化，數據就變得跟之前不一樣了。當然，打亂數據可以讓泛化變得更容易，但這實際上是一種偷懶的行爲，因爲在現實世界中，數據沒有被打亂，下次的情況跟之前很可能大不相同。因此，我們要做的實際上應該是構建對這些改變具有魯棒性的系統。這也是“元學習”的重要之處。

RIM模型，來源：Yoshua Bengio論文《Recurrent Independent Mechanisms》，論文鏈接：

“元學習” 和“學會學習

韓鬆：您在九幾年發表過一篇關於”元學習（Meta Learning）” 和“學會學習（learning to learn）”的論文。最近，隨着“神經架構搜索”的普及，“元學習”再度成爲熱點。能否分享一下您對“元學習”的想法以及近幾年的進展？

Yoshua Bengio：

最開始還沒有“元學習”的概念，我們都把這個概念稱作“學會學習”。我當時是受到生物體學習與進化之間關係的啓發。用一個不太確切的對比，你可以把進化比作一種優化，因爲不同物種通過進化能夠把同樣的事情做得越來越好。我們的外層循環就像緩慢的時間尺度一樣，不斷發展出越來越好的解決方案。同時，人在一生中，也會隨着學習而進步，這就相當於在學習中學習。

我們在論文中展示了可以使用反向傳播（back-propagation）工具來同時優化這兩件事。最近幾年，人們正在運用這些想法來優化學習體，不僅讓它們在指定任務上做得更好，而且能夠進行泛化，並對不同的變化和分佈保持良好的魯棒性。這些是使用一個假定分佈進行正常訓練的常規靜態框架無法實現的。至少從理論上講，元學習這個方法很重要。

韓鬆：我完全同意。另外，由於我們在“For Loop” 的外部又添加了“For Loop”，計算的複雜性已經變得非常高了。

Yoshua Bengio：

這就是爲什麼多年來這個領域一直不受歡迎。但是現在，我們具有比 90 年代初更強大的計算能力，有了GPU 和 TPU，我們也就可以開始實現通過“元學習”的方法從少量例子中學習。

Yoshua Bengio 1991年發表的“元學習”論文（）

模型訓練的碳足跡

韓鬆：我們注意到，目前的模型訓練產生非常高的碳足跡。您也建了一個用於計算二氧化碳排放量的網站。您對這方面的環境問題有什麼看法？

Yoshua Bengio：

生活中沒有簡單的事情，並且有許多重要的細節值得關注。機器學習可以用來應對氣候變化這一重大的人類挑戰。我們寫過一篇很長的論文，解釋了機器學習在氣候科學中的許多應用，比如設計更好的材料，提高用電效率，或者更好地利用可再生能源。

但與此同時，所有這些計算能力都潛在地汲取了更多來自不可再生能源的電力，造成了巨大的碳足跡。當然，這也取決於實驗在哪裏進行。比如在我居住的魁北克省，水力發電就是 100％可再生的，不會產生碳足跡。但是如果在中國，可能會使用很多煤炭發電，那麼情況就不一樣了。

更令人擔憂的是，學術界和工業界正在逐步建立越來越大的模型，每三個月就能翻一番，比摩爾定律還要快。因此，我們無法維持這種快速發展，最終這些 AI 系統會消耗掉地球上的所有電力。這並不是我們想要看到的。所以我們需要像你一樣的人來幫助我們設計更加高效的系統。

你認爲我們應該如何解決這個問題？

韓鬆：

我認爲算法與硬件的協同設計對於解決這個挑戰至關重要。以前，我們總是希望搭乘摩爾定律的順風車來實現性能改進，期待計算機的運行速度一年比一年更快。隨着摩爾定律的放緩，我們也開始試圖通過改進算法來減少內存佔用量。通常能源的消耗主要來自對內存的大量佔用。

目前，我們已經取得了一些成功，例如我開發的深度壓縮（Deep Compression ）方法，可以通過高效的推理引擎來節省計算量，將模型縮小一個數量級，從而減少內存用量。近來，我們一直在努力降低Transformer的神經網絡架構搜索成本。通常一個模型的碳成本相當於五輛汽車生命週期的碳足跡。

Yoshua Bengio：

這是另一個值得關注的問題。媒體上報道的那些巨大的碳足跡數字主要是由於在架構和超參數空間中進行超參數優化搜索造成的，這比訓練單個網絡貴 1000 倍。如果在學術界，沒有足夠強大的計算能力，就要依靠人腦來進行搜索，這樣效率會高很多。而我們目前單純依靠機器探索架構空間幾乎相當於是在用蠻力，成本十分高昂。

韓鬆：

非常贊同。去年我剛加入麻省理工學院時，我們只有八個GPU的算力，學生無法進行神經網絡架構搜索，只能將人類智能與機器智能相結合，以更低成本的方式進行搜索。

蒙特利爾學習算法研究所（MILA）關注氣候變化項目，來源：MILA

給年輕研究人員的建議

韓鬆：

作爲人工智能的先驅人物，您對年輕一代的研究人員有什麼建議？

Yoshua Bengio：

在當前的人工智能和機器學習領域，研究人員和學生面臨着很多競爭，他們壓力很大，非常焦慮，這讓我感到非常憂心。最好的科學研究並不是在這樣的環境下產生的，而是應該通過長期細緻的思考，集思廣益，進行各種嘗試，讓自己的想法逐漸發展成熟。

目前的狀況是大家都只關注下一個截止日期。這個截止日期過了，兩三個月後又會有另一個截止日期。我認爲這樣的氛圍對AI領域的發展非常不利，對研究人員的心理狀態也會產生負面影響。

所以我的建議是退後一步，設立一些更遠大的目標，思考更有挑戰性的問題，而不是隻盯着接下來幾周或下一個截止日期前要做什麼。在研究上，要跟隨你的直覺，開放地與同行分享和探討你的想法；創造積極的交流氛圍，不要害怕別人竊取你的想法。無論從心理還是科學的角度來說，積極地、公開的交流可以提供更健康的科研氛圍和更高的科學生產力。（完）

原文鏈接：

https://www.robinly.info/post/yoshua-bengio-from-deep-learning-to-consciousness

專訪圖靈獎得主Yoshua Bengio：AI能否有“意”爲之？

因爲信念，所以堅持

從“注意力”到“意識”

“元學習” 和“學會學習

模型訓練的碳足跡

給年輕研究人員的建議

Palantir早期員工、連續創業者Brien Colwell：創業動力源自創造文化

居家困守，如果無人送餐能成真？

2020 人工智能人才報告

【哈佛MIT創業講堂】AI初創如何實現從0到1

Mosaix首席科學家勞逆：弱監督學習是未來發展趨勢

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結