大規模學習該如何權衡得失？解讀NeurIPS 2018時間檢驗獎獲獎論文

AI 前線導讀：機器學習進展飛速，有時甚至覺得，超過 2 年的想法或算法就過時了，或者就被其他更好的東西所取代。然而有時候，有些舊想法，即使科學界的大部分人已經遠離它們，它們仍然很重要。這通常是個上下文的問題：一個在特定的上下文中看起來已經窮途末路的想法也許在另一個上下文中變得極其成功。在深度學習的特定情況下，可用數據和計算能力的增長重新引起了人們對該領域的興趣，並顯著地影響了研究方向。

更多幹貨內容請關注微信公衆號“AI 前線”（ID：ai-front）

NIPS 2007 年的論文《大規模學習的權衡（The Trade-Off of Large Scale Learning）》是由 Léon Bottou（當時在 NEC 實驗室工作，現在在Facebook AI研究中心工作）和 Olivier Bousquet（就職於蘇黎世谷歌 AI研究中心）共同完成的，該論文是這種現象的絕佳實例。作爲 NeurIPS 2018 經典論文獎的獲獎論文，這項開創性的工作研究了機器學習中的數據和計算之間的相互作用。研究結果顯示，即使受到計算能力的限制，仍然可以使用大型數據集，在多個獨立訓練樣本上進行少量的計算比在數據的子集上進行大量的計算更有效率。這證明了隨機梯度下降法這個舊算法的強大，如今，幾乎所有的深度學習應用都使用了該算法。本文是 AI 前線第 62 篇論文導讀，我們將帶大家一起回顧這篇經典論文。

優化和擴展挑戰

很多機器學習算法都可以看成是以下兩個要素的組合：

模型：一個可以用於擬合數據的函數集合。
優化算法：指明如何在該函數集合中找到最佳函數。

回望 90 年代，機器學習中使用的數據集比如今使用的要小很多，儘管人工神經網絡已經取得一些成功，但它們仍然被認爲難以訓練。在 2000 年初，隨着“核機器（Kernel Machines）”（特別是 SVM）的引入，神經網絡逐漸落伍。同時，大家的注意力從一直用於訓練神經網絡的優化算法（隨機梯度下降法）轉移到了用於核機器的那些算法上（quadratic programming，二次規劃）。一個重要的區別是，在前一種情況下，一次使用一個訓練樣本執行梯度步驟（這被稱爲“隨機”），而在後一種情況下，每次迭代時都會用到所有訓練樣本（這被稱爲“批處理”）。

隨着訓練集規模的增長，優化算法處理大量數據的效率成爲瓶頸。比如，在二次規劃的情況下，運行時間至少是樣本數量的二次方。換句話說，如果訓練集的規模翻倍，那麼訓練時間至少要增加 4 倍。因此，爲了把這些算法擴展到更大的訓練集，人們花費了大量的精力（請參看大規模核機器）。

具有神經網絡訓練經驗的人都知道，隨機梯度下降法相對更容易擴展到大型數據集，但是，遺憾的是，它的收斂速度非常慢（要進行大量迭代才能達到與批處理算法的精度），因此，還不清楚這是否是擴展問題的解決方案。

隨機算法擴展性更好

事實上，在機器學習的背景中，優化成本函數所需的迭代次數不是主要問題：把模型優化至完美是沒有意義的，因爲基本上都會“過擬合”訓練數據。那麼，爲什麼不減少優化模型所需的計算量，而把精力投入到處理更多的數據呢？

Léon 和 Olivier 的工作是對該現象的正式研究：他們考慮訪問大量的數據，並假設限制因素是計算，研究結果表明，最好對每個獨立訓練樣本進行最少量的計算（因而可以處理更多樣本），而不是對較少量的數據進行大量的計算。

在這個過程中，他們還證明，在各種可能的優化算法中，隨機梯度下降法是最佳算法。這已被很多實驗所證實，並引起了人們對在線優化算法的興趣。如今，在線優化算法已廣泛應用在機器學習中。

未解之謎

在隨後的幾年中，隨機梯度下降法在凸優化和非凸優化（特別適合於深度學習）場景中發展出了許多變體。現在最常見的變體是所謂的“小批量（mini-batch）”隨機梯度下降法，每次迭代只考慮少量的訓練樣本（大概是 10 到 100 個之間），在訓練集上執行多遍，並利用一些聰明的技巧來適當地擴展梯度。大多數機器學習庫提供這類算法的默認實現，它被認爲是深度學習的支柱之一。

儘管該分析爲理解這個算法的特性提供了堅實的基礎，但是，深度學習令人難忘甚至有時令人驚訝的成功不斷地向科學界提出更多的問題。具體來說，儘管該算法在泛化深度網絡特性中的作用已經被反覆證明，但我們仍然未能充分理解。這意味着，還有很多有趣的問題等待我們探索，這些問題有助於我們更好地理解目前在使用的算法，並在未來開發出更高效的算法。

10 年前，Léon 和 Olivier 在合作中提出的觀點顯著推動了現如今已成爲機器學習系統主力、造福我們日常生活的算法的發展。我們衷心祝賀兩位作者獲得這一當之無愧的獎項。

原文鏈接：

https://ai.googleblog.com/2018/12/the-neurips-2018-test-of-time-award.html

活動推薦

說到人工智能的應用，你還只停留在圍棋和自動駕駛？現階段的人工智能是否在前一代成果的基礎上實現突圍？12月20日上午，AICon 人工智能與機器學習解決方案專場，將由騰訊技術大咖帶隊，從智能問答算法原理、圖數據庫引擎、高效文本標註工具的實現等維度進行研討與展示，與大家聊聊AI新探索與新應用。報名鏈接：http://t.cn/EUYzWd5

大規模學習該如何權衡得失？解讀NeurIPS 2018時間檢驗獎獲獎論文

優化和擴展挑戰

隨機算法擴展性更好

未解之謎

活動推薦

大規模學習該如何權衡得失？解讀NeurIPS 2018時間檢驗獎獲獎論文

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結