MIT長篇論文:我們熱捧的AI翻譯和自動駕駛,需要用技術性價比來重估

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!


深度學習在計算上受到限制並不是一件「新鮮事」。

只是在過去十年裏面,這種計算限制被「淡化」了。人們專注於「算法」優化和「硬件」性能的提升,以及願意投入更高的「成本」來獲得更好的性能。

性價比這件事,從來沒被嚴肅以待。

但是現在,深度學習的計算需求越來越大,這些所謂的「方法」開始變得無濟於事了。

最近,MIT計算機科學與人工智能實驗室的研究科學家Neil Thompson發表了最新研究,主題旗幟鮮明:「Computational Limits of Deep Learning」。

用46頁、研究千餘篇論文告訴你,深度學習的算力侷限在哪裏。

1

從設置的生成模型中發現理論上的算力侷限。

首先,來看看理論上的算力侷限。

他們設置了一個生成模型,在可能的1000個參數中,有10個非零參數,並考慮4個模型來嘗試發現這些參數。

Oracle model:在模型中有完全正確的10個參數。

Expert model:模型中恰好有9個正確參數和1個錯誤參數。

Flexible model:擁有模型中所有1000個潛在參數,並使用「最小二乘估計」。

Regularized model:跟「Flexible model」一樣,它擁有模型中所有參數,但是是在正則化模型中。

於是,就得出了這樣的結果——模型複雜度與正則化對模型性能和對計算要求的影響。

2

其中模型性能,是以與最佳預測器相比預測的歸一化平均平方誤差的負對數(以10爲底)。

可以看到,隨着樣本量的增加,Oracle model跟Expert model一開始表現出更好的性能,而Flexible model和Regularized model這兩個模型後進之勢十分猛烈。

而與之相應的「計算要求」,Flexible model和Regularized model跟前兩個壓根就不是一個量級的。

這恰好印證了吳恩達的一個觀點:

當數據量小的時候,傳統的機器學習技術做得更好,但靈活的深度學習模型在數據量更大的情況下做得更好 。

那麼這篇論文將這一見解推向了更加廣泛的結論:

靈活的深度學習模型有更大的潛力,但也有更大的數據和計算要求。

1058篇論文看到實際中的算力需求

直接上圖。

3

可以看到,所有的深度學習模型的實際算力需求,在近幾年裏,遠遠高於「硬件性能」提升中需要的計算能力。

爲了研究深度學習對計算的依賴性,團隊研究了1058篇研究論文。

涵蓋了圖像分類(ImageNet基準)、對象檢測(MS COCO)、問題回答(SQuAD 1.1)、命名實體識別(COLLN 2003)和機器翻譯(WMT 2014 En-to-Fr)等領域。

以圖像分類爲例。

4

ImageNet爲基準,顯示了ImageNet數據集上圖像識別錯誤率的下降及其與這些模型的計算要求的相關性。

除此之外,在問題回答、命名實體識別、機器翻譯等領域也表現出了對計算能力的依賴性。

5

除了機器翻譯(英語到德語),使用的計算能力的變化很小。其他的模型的依賴性都很強,其中問題回答的依賴性達到了7.7。

總的來說,在深度學習的許多領域中,訓練模型的進展都依賴於計算能力的大量增加。

但隨之而來的,就是「高昂的研究成本」。

MIT助理教授,清華大學校友韓松,就曾說過:

深度神經學習網絡在計算上非常昂貴,這是一個關鍵的問題。

今年一月,Facebook的AI副總裁Jerome Pesenti在接受《連線》採訪時,就表示,該領域很快就會「碰壁」。

AI科研成本的持續上漲,或導致我們在該領域的研究碰壁,現在已經到了一個需要從成本效益等方面考慮的地步,我們需要清楚如何從現有的計算力中獲得最大的收益。

現在,用千餘篇論文研究再次證實了這一結論。

那麼對於現在的機器翻譯、自動駕駛等項目需要重新考慮一下,「如何實現以最低的成本實現收益最大化」。

換而言之,作爲商業模型來落地的AI翻譯和自動駕駛項目,是時候要用「性價比」來重估了。

你覺得呢?

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-21
本文作者:白交
本文來自:“量子位公衆號”,瞭解相關信息可以關注“公衆號 QbitAI”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章