馬騰宇:高效、可靠、可理解的深度學習

????點擊上方藍字星標“Robinly”,及時獲取更多重磅AI訪談

Robin.ly 是立足硅谷的視頻內容平臺,服務全球工程師和研究人員,通過與知名人工智能科學家、創業者、投資人和領導者的深度對話和現場交流活動,傳播行業動態和商業技能,打造人才全方位競爭力。

畢業於清華 “姚班” 和普利斯頓大學的馬騰宇是 AI 學界備受矚目的青年翹楚。他目前在斯坦福大學計算機科學系與統計學系擔任助理教授,專注於機器學習理論和算法研究,涉及非凸優化、深度學習、強化學習、表徵學習等領域。馬騰宇在 2018 年獲得 ACM 最佳博士論文榮譽提名,並獲得 COLT 2018 最佳論文獎和 NIPS 2016 最佳學生論文獎。

在本期 Robin.ly 獨家專訪中,馬騰宇分享了他在 NeurIPS 2019 大會發表的論文亮點、ACM 獲獎博士論文背後的研究工作、以及對 AI 未來研究方向的展望。

以下爲完整訪談實錄,點擊“閱讀原文”獲取英文實錄。

1

  NeurIPS 2019 的論文亮點

Margaret Laffan(Robin.ly 主持人):  馬博士,能跟我們介紹一下你目前的研究工作以及你在 這次 NeurIPS 2019 發表的五篇論文嗎?

馬騰宇:

我目前的研究重點是機器學習理論,尤其是深度學習理論,並致力於將理論知識轉化爲實際應用。在過去的兩年中,我也一直在探索新的深度強化研究(Deep Reinforcement)。

這次 NeurIPS 大會接收的5篇論文中,有幾篇探討了深度學習算法的工作原理,以及如何利用理論研究改進算法的性能。

其中一篇名爲 “Data-dependent Sample Complexity of Deep Neural Networks via Lipschitz Augmentation” 的論文重點介紹了爲什麼在存在大量參數的情況下,深度學習算法仍然可以泛化到從未見過的實例。這是目前深度學習領域的一個重要的開放研究方向,之前的一些常規理論在這些情況下並不適用。還有兩篇論文是關於如何更快地訓練算法以更好地進行泛化:一篇論文討論了調整算法中學習速率/步長對泛化的重要性;另一篇是關於正則化 (Regularization) 的重要性和如何優化。

馬騰宇博士(右)在NeurIPS 2019會場接受Robin.ly專訪

另外一篇題爲 “Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss” 的論文也特別值得一提。這篇文章是研究如何針對不均衡的數據集,利用理論知識來設計實用算法,以改進生活中實際應用。業界的許多數據集不如我們常用的基準數據集(如 ImageNet、CIFAR)那樣均衡 -- 在某些情況下數據量很大,而另一些罕見低頻事件的數據則少的可憐。以無人車爲例,遇到鹿橫穿馬路的數據非常少,但這種情況的安全隱患很大。我們有必要讓算法在此類涉及到安全的關鍵事件上有良好的表現,確保算法不僅適用於常見事件,也適用於罕見事件。

當前的總體解決思路是設計正則化方法 (Regularization)以提高對罕見事件的泛化能力。現有工具重新採樣和優化的方法能夠解決罕見事件的數據訓練問題,但是這些結果會導致過度擬合,無法很好地泛化。我們這項工作就在試圖解決這個問題。我們成功地改進了一些先前的簡化算法,並在罕見事件的泛化結果上取得了明顯的進步。

2

  ACM 獲獎論文:非凸優化研究

Margaret Laffan: 你的博士論文獲得了 ACM 榮譽提名獎,能分享一下其中最重要的貢獻嗎?

馬騰宇:

我的博士論文 “Non-convex Optimization for Machine Learning: Design, Analysis, and Understanding” 主要關注的是非凸優化研究。在 2012 - 2013年我剛開始讀博士的時候,深度學習新一輪的浪潮纔剛剛興起,我們開始意識到深度學習會是下一個大趨勢。

理解深度學習算法原理的瓶頸之一是如何優化損失函數 (Loss Function),使其變得非凸。但是大多數現有的優化理論都將重點放在優化凸函數上,這不一定適用於深度學習。這項研究的目的就是了解爲何我們可以實現非凸函數的優化 -- 人們通常認爲這是一個非常棘手的問題。

我在論文中還描述了在實際應用中損失函數的不同特徵。我們針對這些特徵可以相應的設計新算法或改進現有算法,而不僅僅侷限於凸函數優化。除此之外,我們還分析了非凸模型的可解釋性。對線性模型的解釋相對容易,但是對於非線性模型和非凸模型,解釋起來就比較困難。因此,論文的第二部分是關於如何在自然語言處理領域 (NLP)理解和解釋這些非凸模型。

馬騰宇(左二)獲得ACM 榮譽提名獎,來源:Michael Freedman

3

  AI 研究發展方向

Margaret Laffan: 你如何看待 AI 研究未來的發展方向?你認爲下一個重大突破會是什麼?

馬騰宇:

AI 包含很多不同的領域,但是至少從理論研究的角度來說,我覺得越來越多的工作正致力於深入挖掘深度學習的理論,探索不同模型的可解釋性和可靠性。我認爲在不久的將來,至少在相對標準的環境中,我們可以更好地理解深度學習的泛化和潛在的實際應用。

當然,我的觀點可能存在一些個人偏見,但我認爲這方面的研究會是下一個比較大的趨勢。現在已經出現了對相關研究潛在社會影響的普遍擔憂。我們專注技術突破的同時,也必須確保所有的算法在實際應用中都是安全、可靠、可解釋的。(完)

NeurIPS 2019 現場完整英文訪談:

關注Robin.ly “Leaders In AI” Podcast

收聽更多英文訪談


相關閱讀

2020 人工智能人才報告

專訪圖靈獎得主Yoshua Bengio:AI能否有“意”爲之?

獨家專訪高通副總裁Max Welling教授:領會因果關係才能泛化智能

專訪NeurIPS “新方向”獎得主:“負面結果”如何影響深度學習?

斯坦福AI Lab主任Chris Manning:我的第一次CVPR

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章