論文下載:
鏈接:https://pan.baidu.com/s/1A9Hs3kllpIppXBNqrmYqVA
提取碼:x0np
【導讀】作者Chelsea Finn,現任Google Brain研究科學家,同時也是伯克利人工智能研究實驗室(BAIR)的博士後。其博士畢業於伯克利計算機系,擁有強大的學術背景,可以算是AI圈最牛逼的博士之一了。她的博士論文——基於梯度的元學習(Learning to Learn with Gradients)很值得一讀,該論文系統性地闡述了Meta Learning以及她提出的MAML的方法和相關改進。作者從Meta Learning問題出發,然後提出了MAML理論,再進行一系列基於該理論的應用嘗試。感興趣的同學可以仔細品味這一系統性的博士論文和其代表性工作。
作者簡介
個人主頁:
http://people.eecs.berkeley.edu/~cbfinn/
Chelsea Finn感興趣的是學習算法如何使機器能夠獲得通用的智能概念,使他們能夠在現實環境中自主學習各種複雜的運動技能。這包括從原始感官輸入中學習表示複雜技能的深層表示,使機器能夠在沒有人工監督的情況下自行學習,並允許系統在之前所學的基礎上,通過少量的經驗獲得新的能力。
目前是Google Brain的研究科學家,也是伯克利人工智能研究實驗室(BAIR)的博士後。將從2019年秋季開始加入斯坦福大學計算機科學系。
最近在加州大學伯克利分校(UC Berkeley)完成了計算機科學博士學位,研究機器學習及其與機器人感知和控制的交叉。是伯克利人工智能研究實驗室(BAIR)的一員,由Pieter Abbeel和Sergey Levine擔任顧問。在進入研究生院之前,其在麻省理工學院獲得了EECS的學士學位,在那裏參與了幾個研究項目,包括Seth Teller的CSAIL輔助技術項目和Sai Ravela的動物生物識別項目。還在Counsyl,Google和Sandia National Labs工作過。
博士論文介紹
人類有一種非凡的能力,能從少數例子中學習新概念,並能迅速適應不可預知的環境。爲了做到這一點,他們以先前的經驗爲基礎,併爲適應能力做好準備,允許將先前觀察與少量新證據結合起來進行快速學習。然而,在大多數機器學習系統中,有不同的訓練和測試階段:訓練包括使用數據更新模型,在測試時,模型被部署爲一個剛性決策引擎。在本文中,我們討論了基於梯度的learning to learn算法,或元學習(meta-learning),其目的是賦予機器類似於人類的靈活性。這些元學習技術不是部署固定的,不可適應的系統,而是明確地訓練快速適應的能力,以便在測試時能夠在面對新場景時快速學習。
爲了研究learning to learn的問題,我們首先對元學習問題、元學習的術語和元學習算法的理想特性給出了一個清晰而形式化的定義。在此基礎上,我們提出了一種基於梯度優化的元學習方法。與以往learning to learn的方法不同,這類方法側重於獲得一個可轉移的表示,而不是一個好的學習規則。因此,這些方法通過使用固定的優化作爲學習規則繼承了許多理想的屬性,同時仍然保持完整的表達性,因爲所學習的表示可以控制更新規則。
我們展示瞭如何將元學習的元素與基於深度模型的強化學習、模仿學習和反向強化學習技術結合起來,將這些方法推廣到運動控制領域。通過這樣做,我們構建了能夠適應動態環境的模擬agent,讓真實的機器人通過觀看一個人的視頻來學習操縱新對象,並且讓人類用少量的圖像向機器人傳達目標。最後,我們通過討論元學習中的開放問題和未來方向來進行總結,旨在找出我們現有方法的關鍵缺陷和侷限性。
元學習簡介
Meta Learning(元學習)或者叫做 Learning to Learn(學會學習)已經成爲繼 Reinforcement Learning(增強學習)之後又一個重要的研究分支(以後僅稱爲 Meta Learning)。對於人工智能的理論研究,呈現出了Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta Learning這樣的趨勢。
而人類之所以能夠快速學習的關鍵是人類具備學會學習的能力,能夠充分的利用以往的知識經驗來指導新任務的學習,因此 Meta Learning 成爲新的攻克的方向。
良好的機器學習模型通常需要使用大量樣本進行訓練。相比之下,人類能夠更快,更有效地學習新的概念和技能。只看過幾次貓和鳥的孩子可以很快分辨它們;會騎自行車的人很快就能上手摩托車。是否有可能通過一些訓練少量樣本快速設計出具有類似屬性的機器學習模型?這就是元學習旨在解決的問題。
元學習,也稱爲“學會學習”,旨在通過一些訓練少量樣本可以學習新技能或快速適應新環境的模型。有三種常見的方法:1)學習有效的距離度量(基於度量); 2)使用(循環)網絡與外部或內部存儲器(基於模型); 3)明確優化模型參數以進行快速學習(基於優化)。
參考鏈接:
https://zhuanlan.zhihu.com/p/28639662
本文大綱
參考鏈接:
http://people.eecs.berkeley.edu/~cbfinn/
https://cloudfront.escholarship.org/dist/prd/content/qt0987d4n3/qt0987d4n3.pdf