原文:10 Deep Learning Trends and Predictions for 2017
作者:Carlos E. Perez
譯者:KK4SBB
歡迎技術投稿、約稿、給文章糾錯,請發送郵件至[email protected]
本文作者曾經多次預測了技術發展的趨勢,最近的一次預測是“2011年軟件發展的趨勢與預測”。10項預言中,準確地命中了6項,比如JavaScript VM、NoSQL、大數據分析、私有云、Scala語言等等。今年,他對深度學習的發展趨勢做了一個預測,主要是研究領域的趨勢預測,而不是工業界的應用。
以下是作者對2017年度的預測內容。
硬件將加速倍增摩爾定律
作者根據其觀察到Nvidia和Intel的發展動態,認爲這是顯而易見的趨勢。由於Nvidia具有完整的深度學習生態系統,它們在整個2017年都將主導佔據主導地位。在另一個深度學習生態系統成熟之前,沒有人會拋棄Nvidia而追求其它的平臺。Intel的Xeon Phi方案中途夭折,預計要到2017年年中才能在性能上追趕上Nvidia,那時基於Nervana的芯片才推向市場。Intel的FPGA方案可能因爲成本原因而被雲提供商所採納。降低功耗是頭等大事。預計到2017年年中,Intel的Nervana芯片每秒可完成30萬億次浮點運算。作者個人猜測,Nvidia目前已經能夠實現每秒20萬億次浮點運算,他打賭Intel在2018年之前不會有太多動作。Intel手中的唯一可能的一張王牌是3D XPoint技術。這將有助於提高整個硬件堆棧,但不一定是提升核心能力。
卷積神經網絡(CNN)將會統治而RNNs和LSTM將被淘汰
作者認爲CNN模型將成爲深度學習系統的主流模型。RNN和LSTM模型及其遞歸設置和嵌套的記憶節點將越來越少地使用,因爲它們無法與CNN所抗衡。就如同GOTO在代碼中消失一樣,作者希望RNN和LSTM模型也被淘汰。
簡單的調參工作將被元學習取代
當作者剛開始接觸深度學習時,他認爲優化算法,特別是二階的算法能夠有巨大的提升。如今,已經有替我們優化模型的深度學習模型了。我們不在需要費盡心思改進SGD算法了,作者認爲重要的一個原因是元學習(meta-learning)能夠根據領域自適應地優化學習過程。
可微分記憶網絡將更常見
記憶模塊將從核心節點中抽取出來,只是作爲計算機制的一個獨立組件,作者覺得這是一個很自然的結果或者說架構。他認爲LSTM的遺忘門、輸入門和輸出門沒有必要,它們可以被輔助的可微分記憶模塊所取代。這呼應了作者對CNN模型的預測。
強化學習只會變得更具創造性
對於現實的觀察永遠是不完美的。我們身邊存在着大量SGD無法解決的問題。因此,任何實踐性的深度學習系統都必須包含某些形式的強化學習。除此之外,強化學習將會出現在各種深度學習的訓練過程中。作者認爲強化學習極大地促進了元學習。
對抗與合作學習將成爲王牌
在過去,我們的深度學習系統都只有單一的目標函數。今後,作者希望看到兩個或兩個以上的網絡合作或競爭來實現一個最佳的解決方案。參見“博弈論揭示了深度學習的未來”。
轉移學習引領產業化
Andrew Ng認爲這非常重要,作者也表示贊同!
更多的應用程序將使用深度學習組件
在2016年,我們已經看到深度學習在更大的搜索算法中用作一個功能評價組件。alphago採用深層學習來評估策略。谷歌的Gmail自動回覆系統將深度學習與集束搜索(beam search)結合。作者希望看到更多的這類混合算法,而不是新的end-to-end的被訓練的DL系統。
更多的採用設計模式
深度學習只是衆多需要抽象結構的複雜領域之一。儘管它用到了很多高深的數學知識,仍有很多未經證明和模糊的概念可以借鑑在其它複雜領域已被證明是有效的方法,比如在軟件開發領域有效。作者認爲人們最終會從深度學習與模式設計中得到啓發。
工程將超過理論
作者認爲研究人員的背景和他們所使用的數學工具會給他們的研究方法帶來偏見。深度學習系統和無監督學習系統等等這些新的東西可能我們從來沒有遇到過。因此,他覺得沒有證據表明我們的傳統分析工具將對解開深度學習的謎團提供任何幫助。幾十年來,物理學中大量的動態系統一直困擾着作者,他將此類比於深度學習系統。
然而,儘管我們缺乏瞭解其本質,但是將不會阻止工程上的應用。作者覺得深度學習幾乎就像是生物技術或基因工程。我們已經創建了模擬學習機,我們不知道他們是如何工作的,但是這並沒有阻止任何人進行創新。