深度學習是否被大肆宣傳

深度學習研究領域是否存在過分誇大的現象?如何看待媒體界和公衆對深度學習的誤解?

本文最初發表在 TechTalks 網站,經原作者 Ben Dickson 授權,InfoQ 中文站翻譯並分享。*

本文系“Demystifying AI”(《揭開人工智能神祕面紗》)的一部分,這一系列文章旨在消除有關人工智能的術語和神話的歧義。

2012 年前後,多倫多大學的研究人員首次使用深度學習在 ImageNet (流行的計算機圖像識別競賽)獲勝,以較大的優勢擊敗了當時最好的技術。對於從事人工智能行業的人來說,這是一件大事,因爲計算機視覺,即讓計算機理解圖像背景的學科,是人工智能最具挑戰性的領域之一。

很自然的,就像其他能夠產生巨大影響的技術一樣,深度學習成了炒作週期的焦點。隨後,深度學習作爲人工智能行業的最新革命被推到了聚光燈下,不同的公司和組織開始應用它來解決不同的問題(或者假裝應用它)。許多公司開始用深度學習和先進的人工智能重新定義他們的產品和服務。而其他人則試圖利用深度學習來解決超出其範圍的問題。

與此同時,媒體機構經常撰寫一些關於人工智能和深度學習的報道,但這些報道其實都是訛以傳訛,是由那些對這項技術的工作原理沒有正確理解的人們寫的。而其他一些知名度較低的媒體則利用關於人工智能的聳人聽聞的標題吸引讀者來點擊、閱讀,從而實現廣告利潤最大化。這些都促成了圍繞深度學習的大肆炒作。

就像其他被大肆宣傳的概念一樣,深度學習也面臨着強烈抵制。6 年後,許多專家認爲深度學習被過分誇大了,它最終將消退,並可能導致另一場人工智能冬天,在這個時期,對人工智能的興趣和投資將大幅下降。

其他知名專家也承認,深度學習已經遭遇瓶頸, 其中就包括一些深度學習的先驅者,他們參與了該領域的一些最重要的成就。

但根據著名數據科學家、深度學習研究者 Jeremy Howard 的說法,“深度學習被過度誇大”的說法有點言過其實。Howard 是 fast.ai 的創始人,他有許多教授人工智能的經驗,爲那些計算機科學背景不是很深的人們教授人工智能。

今年早些時候,Howard 在 USENIX Enigma 頂會發表的演講中,駁斥了許多反對深度學習的觀點。整個視頻很好地闡明瞭深度學習到底能做什麼,不能做什麼,並幫助人們清楚地瞭解對這一領域的期待。

下面是 Howard 澄清的幾個關鍵誤區。

深度學習只是一種時尚,明年就會成爲另一回事了

很多人認爲,深度學習是憑空冒出來的,就像它出現的速度一樣,很快就將會消失。

Howard 解釋說:“你們今天在深度學習看到的實際上是幾十年來研究的結果。而這些幾十年來的研究最終達到了真正能夠給出最先進結果的地步。”

作爲深度學習算法的主要組成部分,人工神經網絡的概念已經存在了幾十年。第一個神經網絡可以追溯到 20 世紀 50 年代。

"Mark I 感知器是 1957 年首次實現的神經網絡(圖片來源:Wikipedia)

但正是由於數十年的研究,以及最近幾年數據和計算資源的可用性,深度學習的概念才走出實驗室,步入實際領域。

Howard 說:“在做了這麼多的工作之後,人們才終於達到了深度學習真正好用的程度。你應該期待看到它的繼續改進,而不是消失。”

深度學習和機器學習是一回事

公平地說,有些人有時會有意無意地使用過多的術語來定義不同的人工智能技術。而人工智能詞彙的濫用和誤用,也導致了人們對這個行業的困惑和懷疑。有人說,深度學習只不過是機器學習的另一個名稱而已;而其他人則將它與其他人工智能技術,如支持向量機(SVM)、隨機森林和邏輯迴歸等相提並論。

但深度學習和機器學習並不是一回事。深度學習是機器學習的子集。一般來說,機器學習適用於所有基於訓練數據的數學模型和行爲規則的技術。機器學習技術已經使用了很長時間。但深度學習遠比同類技術優越。

在深度學習問世之前,科學家們不得不投入大量的艱苦工作來編程“特徵”或模塊,這些特徵或模塊可以執行模型想要執行的任務的較小部分。例如,你想創建一個能夠檢測貓咪圖像的人工智能模型,你就必須編寫較小的程序來檢測貓的特徵,如耳朵、尾巴、鼻子、皮毛等。你還得把這些程序設計得足夠強大,才能從不同的角度、不同光照條件下檢測到這些特徵,並辨別出不同種類的貓咪。然後,你必須在這些特徵的基礎上進行機器學習。

如果你想解決一個更復雜的問題,比如,從核磁共振掃描中發現乳腺癌,那麼創建特徵將變得更具挑戰性。“你會有幾十個領域專家與幾十個計算機程序員和數學家一起工作,提出有關這些特徵的想法,並對它們進行編程。”Howard 說,“然後,你會讓他們通過一個經典的機器學習模型,比如邏輯迴歸。這項努力實際上將需要花費多年的時間。”

經典的機器學習方法涉及許多複雜的步驟,需要幾十個領域專家、數學家和程序員的合作。

而深度學習則是用神經網絡取代了艱鉅的經典機器學習的過程。Howard 將神經網絡描述爲一種“無限靈活的功能”,這意味着神經網絡可以應用於大多數人們用機器學習解決的問題,而無需進行所有以前必須做的領域特定特徵工程。

要調整神經網絡來解決特定問題,你需要對它的參數進行調整。要做到這一點,深度學習使用了“梯度下降”,這是一種多用途的優化算法,它將神經網絡的參數擬合到它要解決的問題上。

最後,深度學習利用了近年來出現的 GPU 和專用硬件的強大能力,以相當快和可擴展的方式執行這些任務。

Howard 說,“只是在過去的幾年裏,這三樣東西才結合在一起,讓我們能夠真正使用神經網絡獲得最先進的結果。”

因此,與之前的機器學習方法所涉及的專業知識密集型且容易出錯的過程不同,深度學習使你能夠提供樣本數據(例如標記爲貓咪的圖片、標記爲癌症或非癌症的核磁共振掃描等等),並使用梯度下降法來訓練神經網絡。神經網絡對這些數據樣本進行比較並尋找共同的模式,學習應用同樣的知識對它以前從未見過的新數據樣本進行分類,

這種方法使深度學習成爲過去幾年最流行的人工智能技術,並引發了使用深度學習的應用的爆炸性增長。

深度學習只適用於圖像識別

儘管人們承認深度學習是一種非常有用的人工智能技術,但很多批評者抱怨它的用途僅限於解決涉及圖像分類的問題。

“圖像識別實際上非常重要。”Howard 說。幾年前,Howard 和一組研究人員訓練了一個深度神經網絡,對肺部進行 CT 掃描,並創建了一種算法,可以檢測出惡性癌症腫瘤,與四名人類放射科醫生組成的小組相比,它檢測的假陽性和陰性率更低。

Howard 還指出,很多問題都可以重新定義爲圖像識別問題。例如,在中國圍棋競賽中擊敗世界冠軍的深度學習算法 AlphaGo,其實就是一個圖像識別卷積神經網絡(CNN)。

“具體來說,AlphaGo 所做的是,它觀察了許多在實際人類競賽中下過的圍棋棋盤的例子。基本上,他們最後做了一個圖像識別神經網絡,他們試圖學習的東西不是‘這張照片是貓咪還是狗子’,而是‘這張白子贏還是黑子贏的圍棋棋盤圖片’。他們最終得出的結果是,可以通過查看棋盤來預測贏家。”

這種方法是 AlphaGo 和許多其他人工智能算法成功的關鍵,這些算法已經掌握了不同的棋盤和視頻遊戲

關鍵是,很多問題都可以轉化爲圖像識別問題,並用深度學習來解決。例如,Howard 的深度學習課程的一名學生創建了一個神經網絡,該網絡在代表鼠標移動和點擊的圖像上進行了訓練。“在這個案例中,他創建了一個卷積神經網絡,一個圖像識別程序,試圖根據這些圖片來預測欺詐行爲。”Howard 說。

也就是說,深度學習也證明了它的價值超出了計算機視覺和圖像識別領域。

Howard 指出,深度學習現在也適用於大多數自然語言處理(NLP)問題。這包括機器翻譯和文本摘要等領域,NLP 也是一個關鍵組件,可以讓 Siri、Alexa 和 Cortana 等人工智能助手能夠理解你的命令。需要明確的是,深度學習對人類語言的掌握有明顯的侷限性

深度學習還可以解決涉及結構化數據的問題,例如電子表格中的行和列。比如,你可以爲神經網絡提供一組表示金融交易及其結果(欺詐或正常),並訓練它預測欺詐交易。

Howard 指出,深度學習還可以應用於時間序列和信號問題,比如,連接到網絡的不同 IP 地址的時間順序或隨時間收集的傳感器數據。

深度學習的痛點

但更重要的是,Howard 也指出了一些深度學習成效有限的領域。這些領域包括強化學習、對抗模型和異常檢測。

一些專家認爲,強化學習是當前人工智能的“聖盃”。強化學習雖然涉及到開發人工智能模型,但無需向它們提供大量的標記數據。在強化學習中,爲模型提供問題域的約束,並讓它開發自己的行爲規則。AlphaGo Zero,是 AlphaGo 的高級版本,就使用了強化學習從頭開始訓練自己,並超越了它的前身。雖然深度強化學習是人工智能研究中比較有趣的領域之一,但它在解決現實問題方面的成功仍然有限。Google Brain AI 研究員 Alex Irpan 發表了一篇文章,闡述了深度強化學習的侷限性。

對抗模型是 Howard 在視頻中提到的第二個領域,是深度學習的另一個痛點。對抗樣本是操縱輸入可以導致神經網絡以不合理的方式運行的樣本。在許多論文中,研究人員展示了對抗樣本如何變成程對人工智能模型的攻擊

已經有一些努力來對深度學習模型進行加固,以抵禦對抗攻擊,但到目前爲止,取得的成功有限。部分挑戰源於神經網絡非常複雜且難以解釋的事實。

異常檢測,是 Howard 在視頻中提到的深度學習的第三個痛點,也是非常具有挑戰性的。一般的概念是根據基線數據訓練神經網絡,並讓它決定偏離基線的行爲。這是將人工智能應用於網絡安全的主要方法之一。一些公司正在探索這一概念。然而,它仍然不能將自己確立爲一個非常可靠的方法來應對安全威脅。

深度學習不可用,因爲它是一個黑盒子

這是一個真正令人擔憂的問題,尤其是在醫療保健、自動駕駛汽車和刑事司法等領域。那些想讓深度學習代替自己做決定的人需要知道是什麼驅使它們做出這些決定。不幸的是,當你訓練神經網絡來執行任務時,你所獲得的的性能優勢是以犧牲你在決策過程中所獲得的可見性爲代價的。這就是什麼深度學習通常被稱爲“黑盒子”。

但在解釋人工智能決策以及幫助工程師和最終用戶理解影響神經網絡輸出的因素方面,也有許多有趣的嘗試。

Howard 說,“理解深度學習模型的方法是,你可以使用所有這些可解釋的機器學習技術來觀察黑盒子的內部。”

深度學習需要大量數據

人們普遍認爲,要創建一種新的深度學習模型,你需要訪問數以百萬計、數十億計的帶標籤的樣本,這就是爲什麼只有大型科技公司才能訪問它。

Howard 說:“你需要大量數據的說法通常是不正確的,因爲大多數人在實踐中,用的是遷移學習。”

一般來說,遷移學習是機器學習中的一門學科,通過訓練一個模型獲得的知識遷移到另一個執行相似任務的模型中。與人類如何將知識從一個領域遷移到另一個領域相比,這是非常原始的。但是,遷移學習在深度學習領域中是一個非常有用的工具,因爲它使開發人員能夠用更少的數據創建新的模型。

Howard 解釋說:“你可以從預訓練神經網絡開始,這個網絡可能是別人預先訓練好的,然後你爲特定任務微調權重。”他進一步說:“一般來說,如果你有 1000 個樣本的話,你應該能夠開發出一個不錯的神經網絡。”

需要博士學位才能搞深度學習

深度學習是計算機科學中一個非常複雜的領域,它涉及到很多高級數學概念。但在過去的幾年裏,人們已經創造了大量的工具和庫,這些工具和庫可以抽象出潛在的複雜性,使你能夠開發深度學習模型,而無需過多涉及數學概念。

Fast.ai 和 Keras 是兩個現成的庫,可用於快速開發深度學習應用程序。此外,還有很多在線課程,包括 Howard 的 fast.ai、Coursera 和其他一些課程,這些課程可以讓你開始深度學習,而不要什麼編程知識,也不需要計算機科學學位。許多有計算機科學以外背景的人已經能夠將這些課程應用於現實問題。

需要明確的是,深度學習研究仍然是一個非常先進和複雜的領域。人才既稀缺又昂貴。那些開發新的深度學習技術的人,是一些最令人垂涎、收入最高的研究人員。但這並不意味着其他人也需要同樣的知識水平來應用這些研究項目的成果。

深度學習需要大量算力和 GPU

“你可能會擔心,你需要一間裝滿 GPU(用於深度學習)的大房間。總的來說,事實並非如此。”Howard 說,“我現在看到的絕大多數成功結果都是通過一個 GPU 完成的。”

大型公司和組織中的研究項目需要大量的 GPU,比如,某個機械臂的訓練用了 6144 塊 CPU 和 8 塊 GPU

另一個例子是 OpenAI Five,這是一個人工智能模型,經過訓練後,可以進行著名的 Dota 2 在線戰鬥競技場視頻遊戲。OpenAI 的訓練用了 128000 個 CPU 內核和 256 塊 GPU

然而,大多數實際問題都可以用單個 GPU 來解決。例如,你可以使用一個 GPU 來完成 Howard 的 fast.ai 課程。

一些總結性想法

我們瞭解了深度學習的範圍和侷限性,以及深度學習的機會和優勢,因爲它是我們這個時代最有影響力的技術之一。深度學習並沒有被過分誇大,也許只是沒有被公衆很好地理解而已。

作者介紹:

Ben Dickson,軟件工程師,也是 TechTalks 的創始人。撰寫關於技術、商業和政治方面的文章。

原文鏈接:

https://bdtechtalks.com/2018/12/03/jeremy-howard-ai-deep-learning-myths/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章