馬騰宇：高效、可靠、可理解的深度學習

????點擊上方藍字星標“Robinly”，及時獲取更多重磅AI訪談

Robin.ly 是立足硅谷的視頻內容平臺，服務全球工程師和研究人員，通過與知名人工智能科學家、創業者、投資人和領導者的深度對話和現場交流活動，傳播行業動態和商業技能，打造人才全方位競爭力。

畢業於清華 “姚班” 和普利斯頓大學的馬騰宇是 AI 學界備受矚目的青年翹楚。他目前在斯坦福大學計算機科學系與統計學系擔任助理教授，專注於機器學習理論和算法研究，涉及非凸優化、深度學習、強化學習、表徵學習等領域。馬騰宇在 2018 年獲得 ACM 最佳博士論文榮譽提名，並獲得 COLT 2018 最佳論文獎和 NIPS 2016 最佳學生論文獎。

在本期 Robin.ly 獨家專訪中，馬騰宇分享了他在 NeurIPS 2019 大會發表的論文亮點、ACM 獲獎博士論文背後的研究工作、以及對 AI 未來研究方向的展望。

以下爲完整訪談實錄，點擊“閱讀原文”獲取英文實錄。

NeurIPS 2019 的論文亮點

Margaret Laffan（Robin.ly 主持人）: 馬博士，能跟我們介紹一下你目前的研究工作以及你在這次 NeurIPS 2019 發表的五篇論文嗎？

馬騰宇：

我目前的研究重點是機器學習理論，尤其是深度學習理論，並致力於將理論知識轉化爲實際應用。在過去的兩年中，我也一直在探索新的深度強化研究（Deep Reinforcement）。

這次 NeurIPS 大會接收的5篇論文中，有幾篇探討了深度學習算法的工作原理，以及如何利用理論研究改進算法的性能。

其中一篇名爲 “Data-dependent Sample Complexity of Deep Neural Networks via Lipschitz Augmentation” 的論文重點介紹了爲什麼在存在大量參數的情況下，深度學習算法仍然可以泛化到從未見過的實例。這是目前深度學習領域的一個重要的開放研究方向，之前的一些常規理論在這些情況下並不適用。還有兩篇論文是關於如何更快地訓練算法以更好地進行泛化：一篇論文討論了調整算法中學習速率/步長對泛化的重要性；另一篇是關於正則化 (Regularization) 的重要性和如何優化。

馬騰宇博士（右）在NeurIPS 2019會場接受Robin.ly專訪

另外一篇題爲 “Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss” 的論文也特別值得一提。這篇文章是研究如何針對不均衡的數據集，利用理論知識來設計實用算法，以改進生活中實際應用。業界的許多數據集不如我們常用的基準數據集（如 ImageNet、CIFAR）那樣均衡 -- 在某些情況下數據量很大，而另一些罕見低頻事件的數據則少的可憐。以無人車爲例，遇到鹿橫穿馬路的數據非常少，但這種情況的安全隱患很大。我們有必要讓算法在此類涉及到安全的關鍵事件上有良好的表現，確保算法不僅適用於常見事件，也適用於罕見事件。

當前的總體解決思路是設計正則化方法（Regularization）以提高對罕見事件的泛化能力。現有工具重新採樣和優化的方法能夠解決罕見事件的數據訓練問題，但是這些結果會導致過度擬合，無法很好地泛化。我們這項工作就在試圖解決這個問題。我們成功地改進了一些先前的簡化算法，並在罕見事件的泛化結果上取得了明顯的進步。

ACM 獲獎論文：非凸優化研究

Margaret Laffan: 你的博士論文獲得了 ACM 榮譽提名獎，能分享一下其中最重要的貢獻嗎？

馬騰宇：

我的博士論文 “Non-convex Optimization for Machine Learning: Design, Analysis, and Understanding” 主要關注的是非凸優化研究。在 2012 - 2013年我剛開始讀博士的時候，深度學習新一輪的浪潮纔剛剛興起，我們開始意識到深度學習會是下一個大趨勢。

理解深度學習算法原理的瓶頸之一是如何優化損失函數（Loss Function），使其變得非凸。但是大多數現有的優化理論都將重點放在優化凸函數上，這不一定適用於深度學習。這項研究的目的就是了解爲何我們可以實現非凸函數的優化 -- 人們通常認爲這是一個非常棘手的問題。

我在論文中還描述了在實際應用中損失函數的不同特徵。我們針對這些特徵可以相應的設計新算法或改進現有算法，而不僅僅侷限於凸函數優化。除此之外，我們還分析了非凸模型的可解釋性。對線性模型的解釋相對容易，但是對於非線性模型和非凸模型，解釋起來就比較困難。因此，論文的第二部分是關於如何在自然語言處理領域（NLP）理解和解釋這些非凸模型。