MIT 研究人員警告:深度學習正在接近計算極限

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

我們正在接近深度學習的計算極限。這是根據麻省理工學院、MIT-IBM Watson AI Lab、安德伍德國際學院(Underwood International College)和巴西利亞大學(University of Brasilia)的研究人員 最新的一項研究中發現的。

深度學習領域的進步在“很大程度上”依賴於計算機的發展。他們斷言,深度學習要實現持續的進步,將需要“戲劇性的”提高更有計算效率的方法,要麼通過改變現有技術,要麼通過新的、尚未發現的方法。

“我們的研究表明,深度學習的計算開銷並不是偶然的,而是經過設計的。這種靈活性使它在建模各種現象方面表現出色,並且優於專家模型,同時也使它的計算開銷顯著增加。”合著者寫道,“儘管如此,我們發現深度學習模型的實際計算負擔比理論(已知)下限增長得更快,這表明實質性的改進是有可能的。

深度學習是機器學習的一個子領域,研究受大腦結構和功能啓發的算法。這些算法被稱爲人工智能網絡,它由層層排列的函數(神經元)組成,它們將信號傳遞給其他神經元。這些信號是輸入到網絡中的數據的產物,從一層傳遞到另一層,並對網絡進行緩慢的“調整”,實際上是在調整每個連接的突觸強度(權重)。通過數據集中提取特徵並識別交叉樣本的趨勢,網絡最終學會做出預測。

54f78ecf7187210bc5156b96aa63a7fa

研究人員分析了預印本服務器 Arxiv.org 以及其他基準源的 1058 篇論文,以瞭解深度學習性能和計算之間的聯繫,特別關注包括圖像分類、對象檢測、問答系統、命名實體識別和機器翻譯等領域。他們對計算需求進行了兩次單獨分析,反映可用信息的兩種類型:

每次網絡傳遞的計算量 ,或給定深度學習模型中,一次通過(即權重調整)所需的浮點運算操作數。

硬件負擔 ,或用於訓練模型的硬件的計算能力,計算方法是處理器數乘以計算速度和時間。(研究人員承認,雖然這是一種不精確的計算方法,但在他們分析的論文中,這種方法的報道比其他基準要廣泛得多。)

合著者報告說,除了從英語到德語的機器翻譯之外,所有基準測試都有“高度統計學意義”的斜率和“強大的解釋能力”,在這種情況下,使用的計算能力幾乎沒有變化。特別是對象檢測、命名實體識別和機器翻譯顯示出硬件負擔的大幅增加,而結果的改善相對較小,在流行的開源 ImageNet 基準測試中,計算能力解釋了圖像分類正確率的 43% 的差異。

研究人員估計,三年的算法改進相當於計算能力的 10 倍增長。他們寫道:“總體而言,我們的研究結果清楚地表明,縱觀深度學習的許多領域,訓練模型的進步依賴於計算能力的大幅提高。另一種可能性是,要想在算法上有所改進,可能本身就需要在計算能力上進行互補性的提高。”

在研究過程中,研究人員還對這些預測進行了推斷,以瞭解達到理論基準所需的計算能力,以及相關的經濟和環境成本。即使是最樂觀的計算,在 ImageNet 上降低圖像分類錯誤率也需要 105 次以上的計算。

fff6c5395f3a49de05d8990c1cd276f3

就他們的觀點而言,一份 同步報告估計,華盛頓大學的 Grover 假新聞檢測模型在大約兩週內訓練成本爲 2.5 萬美元。據報道,OpenAI 花了 1200 萬美元來訓練 GPT-3 語言模型,而 Google 花費了大約 6912 美元來訓練 BERT ,這是一種雙向 Transformer 模型,重新定義了 11 種自然語言處理任務的最新水平。

在去年 6 月的另一份報告中,馬薩諸塞大學阿默斯特分校(University of Massachusetts at Amherst)的研究人員得出結論,訓練和搜索某種模型所需的能源涉及大約 62.6 萬磅的二氧化碳排放量。這幾乎相當於全美國汽車平均壽命排放量的 5 倍。

“我們沒有預料到,目標所隱含的計算要求…… 硬件、環境和財務成本會高得令人望而卻步。”研究人員寫道,“以一種經濟的方式實現這一目標,需要更高效的硬件、更高效的算法,或其他改進,以使淨效果就是如此巨大的收益。”

研究人員指出,在算法層面上進行深度學習的改進是有歷史先例的。他們指出,像 Google 的張量處理單元(TPU)、現場可編程邏輯門陣列(FPGA)和專用集成電路(ASIC)這樣的硬件加速器,以及通過網絡壓縮和加速技術來降低計算複雜性的嘗試。他們還引用了神經架構搜索和元學習,它們使用優化來找到在一類問題上保持良好性能的架構,作爲提高計算效率方法的途徑。

事實上,OpenAI 的一項 研究表明,自 2012 年以來,人工智能模型在 ImageNet 中進行圖像分類所需的計算量每 16 個月就會減少 2 倍。Google 的 Transformer 架構超越了之前最先進的模型——seq2seq,也是由 Google 開發的,在推出 seq2seq 推出三年後,計算量減少了 61 倍。而 DeepMind 的 AlphaZero ,是一個從零開始自學如何掌握國際象棋、將棋和圍棋的系統。在一年後,比它的前身 AlphaGoZero 的改進版本減少了 8 倍的計算量。

“用於深度學習模型的計算能力的爆炸式增長結束了人工智能冬天,併爲各種任務的計算機性能設定了新的基準。然而,深度學習對計算能力的巨大需求,也限制了它在當前形勢下提高性能的程度,尤其是在硬件性能改進速度正在放緩的時代。”研究人員寫道,“這些計算限制的可能影響是迫使機器學習朝着比深度學習更高效的技術方向發展。”

作者介紹:

Kyle Wiggers,技術記者,現居美國紐約市,爲 VentureBeat 撰寫有關人工智能的文章。

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/zhibo

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-27
本文作者:Kyle Wiggers
本文來自:“InfoQ”,瞭解相關信息可以關注“InfoQ

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章