Facebook AI研究院成立5年,帶來了哪些顛覆性變革?

AI前線導讀:本月,Facebook人工智能研究院(FAIR)成立滿五週年了!Facebook這個社交網絡巨頭無疑對互聯網產生了巨大的影響,不管是好的還是壞的。而FAIR的研究成果更是對AI研究社區和Facebook運營的方式,產生了不可磨滅的影響。

在這個特殊的時刻,FAIR的創辦者兼首席AI科學家Yann LeCun、FAIR現任負責人Jerome Pesenti以及Facebook首席技術官Mike Schroepfer在官網聯合發佈博客,盤點了FAIR五年來所做的事情以及達成的成就。

Yann LeCun表示:“沒有深度學習,Facebook就無法運營,它已經深入到Facebook的方方面面”。

據LeCun透露,在FAIR創辦之前,Facebook沒有任何研究實驗室,公司做的都是一些短期的工程項目,6個月就算是很長的項目週期了。

image

在Facebook的前五年,Facebook CTO Mike Schroepfer並不同意創建這個研究實驗室,但直到2013年,AI將成爲Facebook未來成功的關鍵因素這個事實才變得清晰起來。

Yann LeCun回憶,五年前在他到Facebook CEO Mark Zuckerberg家中赴宴之後沒多久,FAIR就成立了。LeCun表示,當時他向Zuckerberg說明了Facebook建立一個研究實驗室的重要性,而後者表示開放的基因存在於Facebook之中,這番話讓LeCun覺得非常高興。

FAIR不是一個“溫室”,幾乎所有的研究成果最後都會對廣泛的AI社區產生重要的影響。與此同時,硅谷的科技公司們也展開了AI競賽,然而,Facebook內部的FAIR和其應用機器學習(AML)團隊各自爲營,給了Facebook考慮其未來長期發展很大的空間。

以下爲博客全文,由AI前線翻譯整理:

五年前,我們創建了Facebook人工智能研究小組(FAIR),通過公開研究的方式推動人工智能的發展,爲所有人帶來益處,此機構旨在理解智能的本質以創造智能機器。從那時起,FAIR收穫頗多,併成長爲一個國際研究組織,在門洛帕克(美國加利福尼亞州聖馬特奧縣東南部城市)、紐約、巴黎、蒙特利爾、特拉維夫、西雅圖、匹茲堡和倫敦均開設了實驗室。如今,人工智能已成爲Facebook的核心,FAIR也成爲Facebook更大的AI組織中的一部分,該組織致力於人工智能研發的各個方面,從基礎研究到應用研究和技術開發。

FAIR在各方面的工作中採用開放模式,與社區廣泛合作。我們的團隊經常發佈最前沿的研究,並儘可能開源我們的研究代碼、數據集,以及如PyTorch、fastText、FAISS和Detectron等工具。這種開放式的方法成功推進了人工智能研究的發展。今年,FAIR的研究人員在衆多國際頂級會議中得到了認可,比如在ACL、EMNLP、CVPR、ECCV中得到了最佳論文獎,在ECCV、ICML和NeurIPS得到了時間檢驗獎項。我們知道,開放可以讓所有人在AI上取得更快的進展。

使機器真正智能化是一項科學挑戰,也是一項技術和產品工程挑戰。 FAIR研究的重點之一聚焦於解決推理、預測、規劃、無監督學習等基本問題。反過來,這些研究領域又需要在生成模型、因果關係、高維隨機優化和博弈論等領域有更好的理論理解。我們需要進行這些長期的研究探索,才能釋放人工智能在未來的全部潛力。我們從過去五年中做過的所有項目中選擇了一小部分,來展示了FAIR如何逐漸接近使命,爲我們的領域做出貢獻,並對世界產生影響。

image

FAIR官博專門製作了一個動態時間線,展示FAIR這五年的重點項目(感興趣的讀者可以訪問官博查看詳情)

內存網絡

2014年,FAIR的研究人員發現了神經網絡的一個內在侷限性——長期記憶。雖然神經網絡可以在數據集訓練過程中學習,但是一旦這些系統開始運行,通常就無法存儲新信息以解決以後的特定任務。因此,我們開發了一種新的學習模型機器,它們能夠記住足夠的交互,以回答一般知識問題並參考先前對話中的句子。在2014年關於此方法的論文中, 我們通過一個支持內存的網絡來回答有關《魔戒》系列劇情的問題,並根據提供給它的簡短摘要進行測試。該系統能夠學習簡單的語言模式,概括未知單詞的含義並做出正確回答。例如,在故事的最後,Frodo在郡中,而戒指在末日火山(Mount Doom)中。

image

FAIR在未來兩年將繼續研究這一方法,並拓展和探索相關領域。通過StackRNN ,團隊使用push-pop堆棧增強了RNN,可以用無監督的方式從序列中進行訓練。通過bAbl ,團隊構建了問答任務的數據集,提高了文本理解基準性能。bAbI現在是開源項目ParlAI的一部分,包含從迴應餐廳預訂請求到有關電影演員的答案在內的數千個對話示例。我們還迭代了內存網絡架構,使它們滿足實際應用程序需求。這些更新包括端到端內存網絡(可以較少的監督工作),鍵值存儲網絡(可以通過從完全無監督獲得的源信息,如維基百科條目,進行泛化來訓練)。

自我監督學習和生成模型

長期以來,通過自我監督學習(SSL)探索大量未標記數據是FAIR將AI 規模化的優先事項之一。使用SSL,機器可以通過饋送未標記的圖像、視頻或音頻來學習世界的抽象表示。例如,向機器展示視頻剪輯對其進行訓練並預測未來的幀。通過學習預測,機器捕獲有關世界如何運作的知識並學習它的良好抽象表示。SSL讓機器通過觀察來學習並積累大量關於世界的背景知識,這有點像人類和動物幼崽。我們希望,這可以形成一種常識。得到能夠預測世界的模型也是構建人工智能系統的關鍵,這種模型應該可以推理、預測其行爲的後果,並在現實世界中採取行動。

2014年,來自蒙特利爾大學MILA的研究人員提出了一種新的無監督學習方法,稱爲生成對抗網絡(GAN)。我們立即被自我監督學習的潛在應用吸引了。然而,雖然GAN看起來很有潛力,但只是在一些“玩具”問題(非真實世界中的實際問題)上得到了證明。從2015年開始,我們發表了一系列論文,這些論文有助於說服研究界,GAN真的可以起作用。通過將兩個神經網絡相互對抗,我們使用GAN來訓練機器在存在不確定性的情況下進行預測。在典型的GAN架構中,生成器網絡基於一堆隨機數(可能是過去的視頻幀)生成數據,例如圖像或視頻幀。同時,鑑別器網絡必須能夠區分真實數據(即真實圖像和視頻幀)和生成器生成的“假”輸出。這樣的持續對抗能同時優化兩個網絡,併產生越來越好的預測結果。

我們的每篇論文都集中在GAN的不同變體上,包括深度卷積生成對抗網絡(DCGAN) 和拉普拉斯對抗網絡(LAPGAN) 中的圖像生成,以及對抗梯度差異損失預測器(AGDL) 中的視頻預測。但所有這些成果的最大貢獻,是表明GAN可以“生成”看起來真實的圖像,例如,不存在的臥室、人臉或狗等。

image

由生成網絡創建的一系列時裝設計

此後,其他研究人員開始研究我們在GAN中的工作,並使之生成出了令人驚歎的高分辨率圖像。

但是,GAN同時也因很難調整並且經常無法收斂而臭名昭著。因此,FAIR通過專注於理解理論層面的對抗性訓練,探索使GAN更可靠的方法。2017年,我們引入了Wasserstein GAN(WGAN) 方法,該方法提出了一種使鑑別器變得“平滑”且更有效的方法,以告訴生成器如何改進其預測。WGAN本質上是第一個在廣泛應用中可以穩定收斂的GAN。這避免了在系統優化時需要平衡鑑別器和生成器輸出的問題,提高了學習的穩定性,特別是對於高分辨率圖像生成任務。

從那時起,FAIR研究人員和Facebook工程師開始在各種應用中使用對抗性訓練方法,包括長時間視頻預測和時尚作品的創作。但是,GAN真正有趣的是它們對於未來的意義。作爲一種全新技術,它創造了在擁有少量數據的領域生成數據的可能。未來,GAN可能將成爲我們構建可以自主學習機器的關鍵工具。

可規模化的文本分類

文本理解不是單一的任務,而是一個龐大的子任務矩陣,它將單詞、短語和整個語言數據集組織成機器可以處理的格式。但在大部分工作可以進行之前,文本本身必須分類好。多年前,諸如word2vec之類的NLP模型通過廣泛的、基於單詞的訓練對文本進行分類,模型爲其訓練數據集中的每個單詞分配不同的向量。對於Facebook來說,這種方法太慢了,也太依賴於完全監督的數據。我們需要一種最終可以分類數百種甚至上千種語言的文本分類方法。該系統需要能夠擴展到整個基於文本的功能和服務,以及我們的NLP研究。

所以在2016年,FAIR構建了fastText ,這是一個快速進行文本分類和學習單詞表示的框架,它考慮了分類單詞的更大形態。在2017年發表的一篇論文中 ,FAIR提出了一個模型,將向量分配給“子詞單位”(例如,3或4個字符的序列)而不是整個單詞,讓系統爲訓練中沒有出現的單詞創建表示。最終,該模型的分類可以擴展到數十億個單詞,並從新的、未經訓練的單詞中學習,同時速度也比普通的深度學習分類器訓練快得多。在某些情況下,fastText在幾秒鐘內就可以完成之前模型需要花費數天才能完成的訓練任務。

事實證明,FastText對基於AI的語言理解研究和應用做出了重要貢獻,現在它已有157種語言版本。原論文在其他出版物中被引用了一千多次,而fastText成爲字嵌入系統最常用的測試標準之一。在Facebook之外,fastText已經被用於各種各樣的應用程序,從大家比較熟悉的,如消息回覆建議,到充滿異國情調的, 一個名爲The Great Outdoors的“算法劇院” ,它使用fastText對互聯網評論進行篩選並將結果作爲表演的腳本。該框架部署在Facebook上,對19種語言的文本進行分類,並與DeepText結合進行翻譯和自然語言理解。

前沿翻譯研究

快速、準確和靈活的翻譯是幫助世界各地人們進行交流的關鍵。因此,FAIR在早期就開始尋找一種優於當時最先進的統計機器翻譯的新方法。建立基於CNN,集速度、準確性和學習能力爲一體的神經機器翻譯(NMT) 架構花了我們三年的時間 。(FAIR在2017年發表了一篇文章, 詳細介紹了其工作原理。)在我們的實驗中,這種方法使RNN速度提高了9倍,同時保持了最先進的準確率。

image

Facebook神經機器翻譯系統圖解說明

我們的CNN不僅可以更輕鬆地在更有限的數據集上訓練,而且能更好地理解拼寫錯誤或縮寫單詞,例如將“tmrw”翻譯爲“mañana”。總的來說,NMT使得翻譯準確性平均提高11%,翻譯速度提高2.5倍。除了改進我們自己的系統之外,我們還開發了fairseq代碼和模型 ,fairseq是我們用於基於CNN系統的序列到序列建模工具包。

爲了避免需要大量翻譯訓練數據集(通常稱爲語料庫),我們還在探索其他方法,如多語言嵌入,這可以實現跨多種語言的訓練。去年,我們發佈了MUSE ,這是一個開源Python庫,提供了兩種不同的學習多語言嵌入的方法:一種是有監督方法,使用庫中包含的110種雙語詞典,另一種是新的無監督方法,沒有平行語料庫也能在兩種語言之間構建新的雙語詞典。接着,我們在一篇獲得EMNLP獎的論文中 證明了無監督翻譯完整句子的訓練有了顯著的改進。

image

可以通過簡單的旋轉(右)對齊兩種語言(左)的二維字嵌入。旋轉後,通過最近鄰搜索進行單詞翻譯。

通過分享像fairseq和MUSE這樣的研究和資源,我們讓其他人也可以使用更快、更準確、更通用的翻譯技術,無論是用於研究目的還是生產應用。

通過AI工具幫助每一個人

人工智能的進步不僅取決於具有突破性的想法,還取決於擁有強大的平臺和工具來測試和實施這些想法。建立這些系統並與全世界分享也是FAIR優先要做的事。

2015年,我們開源了由FAIR創建的Torch深度學習模塊,以加快更大規模的神經網絡訓練。2016年,爲我們發佈了Torchnet,讓社區可以更輕鬆、快速地構建有效且可重複使用的學習系統。不久之後,我們推出了Caffe2 ,這是我們用於移動計算的模塊化深度學習框架,目前正在全球超過10億部手機上運行神經網絡。然後,我們與微軟和亞馬遜合作發佈了ONNX ,它是神經網絡的通用代表,可以根據需要在框架之間任意切換。

需要特別指出的是,我們在PyTorch上的工作兌現了FAIR對快速迭代、有意義的影響、開放系統以及與AI社區合作的承諾。PyTorch開始只是少數FAIR研究人員在開發。我們選擇在Torch開源庫的基礎上構建深度學習框架,而不是構建一個全新的深度學習框架,我們還與英特爾和英偉達的加速庫集成,以最大限度地提高速度。2017年初,我們發佈了PyTorch,兩年之後,它已經成爲GitHub上增長速度第二快的開源項目,也是全球AI開發人員的首選框架。10月,數百名AI社區成員參加了第一屆PyTorch開發者大會,聆聽了加州理工學院、FAIR、fast.ai、谷歌、微軟、英偉達、特斯拉等許多公司的演講。現在,PyTorch 1.0的發佈集成了Caffe2和ONNX的模塊化、面向生產的功能,提供從研究原型到生產部署的無縫路徑,並與雲服務和技術提供商進行深度集成。

image

PyTorch深度學習平臺的混合前端流程圖

PyTorch集成在數十億人使用的Facebook產品,以及fairseq(-py)等FAIR研究項目中,後者將翻譯速度提高了80%。PyTorch也被用於我們的強化學習機器人ELF OpenGo 、EmbodiedQ​​A,以及基於數十億帶標籤的開放圖像數據集訓練圖像識別網絡。除了Facebook之外,PyTorch還爲AllenNLP的項目提供支持,讓紐約大學教授Narges Razavian博士能夠利用人工智能來改善疾病的早期檢測和發現。現在,Udacity和fast.ai正在幫助更多人加入PyTorch。

因爲PyTorch使模型從研究到生產變得更快更容易,我們在Facebook AI相似性搜索(FAISS)上的工作加速了大規模搜索的發展。FAISS最初是一個內部研究項目,旨在更好地利用GPU來識別與用戶偏好相關的相似性,現在,它是同類型中能夠處理十億級數據集最快的庫。FAISS帶來了打造推薦引擎和基於AI的輔助系統的可能性。去年,我們將之開源, 此後被開發者社區廣泛採用,目前FAISS項目在GitHub上star數已經超過5000,並集成到了英偉達的GPU加速scikit-learn庫cuML中。

計算機視覺的新基準

探索智能的本質是一種關於多感官模式的研究,但FAIR過去五年裏在計算機視覺上的進步卻是值得被記錄的。

在FAIR誕生之前,Facebook的一個小型AI專家團隊在想辦法更好地理解像素在圖像中表示人物的方式,以便在正確的時間爲人們展示合適的照片。快進到2017年,FAIR的Mask-CNN獲得了計算機視覺國際會議最佳論文,它將計算機視覺世界的物體檢測與語義分割結合到了一起。

image

計算機視覺技術的進展

正如該論文所述,“沒有花裏胡哨的東西,Mask R-CNN在每項任務中都優於所有現有的單模型參賽作品,包括COCO 2016挑戰賽冠軍。”這項工作迅速成爲更廣泛的AI社區進行計算機視覺研究的基礎。隨後,我們將該技術集成到了Facebook開源的Detectron系統 中,將元算法的直觀易用性、速度和準確性帶給了全球的研究人員。

這項基礎工作現在支持着無數Facebook的系統,例如幫助視障人士自動替代文字和檢測劣質內容的工具。它也成爲了未來應用的基礎:我們平臺上的AR功能和Portal中的智能相機都源於這項工作。這項研究仍在繼續,但重點轉移到了視頻,我們的DensePose項目將幫助系統理解視頻內容和照片。

圖像理解:更快的訓練和更大的數據集

計算機視覺並不是FAIR探索解決大規模挑戰的唯一領域。FAIR還與Facebook的應用機器學習(AML)團隊合作,解決訓練速度和訓練集大小,以及缺乏監督數據集的限制。

在今年早些時候發表的一篇論文中,AML團隊討論了他們如何使用主題標籤在大型開放圖像數據集上訓練圖像識別網絡,其中最大的包括35億個圖像和17000個主題標籤。結果證明,它比以前發表的任何成果水平都要高出一個數量級,獲得了迄今爲止業界公佈的最高準確率:85.4%。

FAIR對訓練速度的研究成就了這一突破,FAIR能夠將ImageNet的訓練速度相比先前的水平提高一個數量級,訓練時間縮短爲不到一小時,使用了比以前常規實驗中大一個數量級的小批量數據集進行SGD訓練。用他們的話說:“爲了實現這一結果,我們採用線性縮放規則來調整學習率作爲小批量尺寸的函數,並開發一種新的預熱方案,以克服訓練早期優化上的挑戰。”

隨着訓練速度的提高,我們能夠對比以前更大的數據集進行弱監督學習定向研究。這兩項結果都凸顯了FAIR和AML之間進行合作的重要價值。當人工智能研究得到實用研究和生產應用的支持時,將會加速研究並獲得更先進的成果。

FAIR的未來

當我們創建FAIR的時候,我們的最終目標是瞭解智能,發現其基本原則,並使機器更加智能化。現在,我們的目標沒有改變。我們將繼續將研究工作擴展到諸如開發能夠通過自我監督學習獲得世界模型的機器,訓練機器進行推理,並訓練它們規劃和構思複雜的連續動作。這是我們致力於機器人、視覺推理和對話系統的原因之一。上述項目展示了我們過去曾走過的路,但科學和技術進步長途漫漫,讓機器在人們的日常生活中變得足夠智能,我們還有很長的路要走。

參考鏈接:

https://code.fb.com/ai-research/fair-fifth-anniversary/

https://techcrunch.com/2018/12/05/where-facebook-ai-research-moves-next/

image

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章