最早的元學習法可以追溯到 20 世紀 80 年代末和 90 年代初，包括 Jürgen Schmidhuber 的理論和 Yoshua、Samy Bengio 的研究工作。最近，元學習再次成爲熱門話題，相關論文大量涌現，多數論文使用超參數選擇（hyperparameter）和神經網絡優化（neural network optimization）技術，進而發現優秀的網絡架構、實現小樣本圖像識別和快速強化學習。

meta-learning：a survey 論文的元學習模型分類

（去論文參考文獻檢索查找）

2 基於模型評估的辦法

在第2節中，我們討論如何純粹的從模型評估中學習。這些技術可以用於提供通用的算法配置和配置查找區間，以及從經驗相似的任務遷移知識。

[1] 關於元數據的介紹， $P_{new}$ 通常是預先收集的，或者是從元數據資料庫中提取的。Vanschoren et al., 2014, 2012

[2] 得到一系列與新任務無關的模型，用新任務評估最合適的那個。一組可選配置 $\theta_i$ ，然後在很多任務上評估。然後我們可以爲每一個任務構建一個排序，排序算法、權衡模型精度的算法：Brazdil et al., 2003a; Demsar, 2006; Leite et al., 2012；Brazdil et al., 2003a; van Rijn et al., 2015。

[3] 計算所有任務上的平均次序 (Lin, 2010; Abdulrahman et al., 2018)。如果數據不夠、不足以構建全局次序，我們可以爲每一個先驗任務採用基於最瞭解的配置給出的配置集 (Todorovski and Dzeroski, 1999; Kalousis, 2002)，或者返回準線性次序(quasi-linear rankings)(Cook et al., 1996)。

[4] 爲找到用於未見任務 $t_{new}$ 的最佳配置 $\theta^*$ ：選擇前K個配置(Brazdil et al., 2003a)，沿排序表依次評估每一個配置。在達到預設的值、時間超限或找到足夠精確的模型之後，暫停這個評估過程。在時間有限的情況下，已經表明多對象的排序（包括了訓練時間）可以更快的收斂到近似最優模型(Abdulrahman et al., 2018; van Rijn et al., 2015)，並且提供了用於算法比較的強大baseline(Abdulrahman et al., 2018; Leite et al., 2012)。

[5] 先擬合一個可微函數 $f_j(\theta_i)=P_{i,j}$ ，它表示所有配置對於任務的評估，然後使用梯度下降找到對於每一個任務的最優配置 $\theta_j^*$ (Wistuba et al., 2015a)

[6] 先驗評估可以用於學習一個較好的參數配置空間。可以加速對於優化模型的查找。(De Sa et al., 2017)

[7] 評價超參數重要性的辦法：ANOVA方法 (Hutter et al., 2014a)。另一種方法是首先學習一個默認的最佳超參數配置，然後將超參數的重要性定義爲可以通過調整超參數（而非保留默認值）來獲得的性能增益：Probst et al. (2018)第一步，針對大量任務訓練一個算法的代理模型，對算法的所有超參數同時學習出默認值。第二步，對許多配置進行採樣，通過最小化所有任務的平均誤差來找到一個建議的默認配置。最後，調整每個超參數、看能夠獲得多少改進，以此來估計每個超參數的重要性（或可調性）。Weerts et al. (2018)獨立地學習每一個超參數的默認值

[8] 評估哪些任務彼此相似，利用這一知識訓練一個用於對 $t_{new}$ 預測配置 $\theta_{new}^*$ 的元學習器。度量相似性的方法：Relative Landmarks相對（成對）性能差異(Furnkranz and Petrak, 2001)如果任務的所有配置的相對界標相近，則認爲任務相似，這種方法的侷限在於它只能使用在許多先驗任務上評估的配置 $\theta_i$ 。

[9] 構建代理模型來評估相似：用於的代理模型可以對 $t_{new}$ 生成精確的預測，那麼這兩個任務本質上就是相似的。這通常與貝葉斯優化(Rasmussen, 2004)結合，用於確定下一次迭代的 $\theta_i$ 。Wistuba et al. (2018)基於高斯過程(Gaussian Processes, GPs)爲每個先驗任務訓練代理模型。使用Epanechnikov二次核(Nadaraya, 1964)度量和 $t_{new}$ 的相對界標之間的相似性。Feurer et al. (2018a)提出將獨立的高斯過程的預測分佈組合起來，這使得組合模型再一次稱爲高斯過程。權重是通過Lacoste et al. (2014)的不可知貝葉斯集合計算。除了代理模型，元數據也可以用於採集函數(acquisition function) (Wistuba et al., 2018)。代理模型僅僅在 $P_{i,new}$ 上訓練，但是有待評估的下一個 $\theta_i$ 是由採集函數提供的，該函數是 $P_{i,new}$ 上的期望性能改善 (Jones et al., 1998)以及所有先驗 $P_{i,j}$ 上的預測性能改善的加權平均。

[10] 熱啓動多任務學習來評估相似：另一種確定先驗任務之間相關性的方法是使用學習一個聯合任務表示(joint task representation)。Perrone et al. (2017)對於特定任務使用貝葉斯線性迴歸(Bishop, 2006)代理模型 $s_j(\theta_i)$ ，並將它們合併入一個前饋神經網絡 $NN(\theta_i)$ ，該網絡學習一個可以精確預測 $P_{i,new}$ 的聯合任務表示。更早的關於多任務學習的工作(Swersky et al., 2013)假定我們已經有了一系列“類似”的原始任務。Springenberg et al. (2016)同樣假設任務之間相關且類似，但是使用貝葉斯神經網絡在優化過程中學習它們之間的關係。Golovin et al. (2017)假定了一個跨任務的序列（如時間）。他們的方法構建了一堆高斯過程迴歸器，爲每個任務分配一個。

[11] 其他評估技術：多臂匪徒(multi-armed bandits) (Robbins, 1985)提出了一種用於找到與 $t_{new}$ 最相關的原始任務的方法。獎勵是根據基於高斯過程的貝葉斯優化器的預測誤差定義的。不足之處在於高斯過程的三次縮放降低了這種方法的可擴展性。另一種方法是採用現有的評估 $P_{i,j}$ ，使用湯普森採樣(Thompson Sampling) (Thompson, 1933)來獲取最優分佈 $\rho_{max}^j$ ，然後估計 $\rho_{,ax}^j$ 和 $\rho_{max}^{new}$ 之間的KL散度(KL-divergence) (Kullback and Leibler, 1951)。這些分佈合併到一個基於相似度的混合分佈中，用於構建一個獲取函數，該獲取函數預測下一個用於評估的最可信的配置。尋找性能較差的 $\Theta$ 區域。將這些區域排除在候選之外，可以更快找到性能更好的區域。Wistuba et al. (2015b) 使用基於Kendall tau秩相關係數(Kendall, 1938)的任務相似性度量來執行此操作。

[12] 學習曲線：將訓練分爲若干步驟，並在每一步增加一定量的訓練數據，就可以度量配置 $\theta_i$ 在任務上經過步後的性能 $P(\theta_i,t_j,s_t)=P_{i,j,t}$ ，即時間步驟期間的學習曲線(learning curve)。學習曲線可以廣泛用於在給定任務上加速超參數的優化(Kohavi and John, 1995; Provost et al., 1999; Swersky et al., 2014; Chandrashekaran and Lane, 2017)。然而在元學習中，學習曲線蘊含的信息在不同任務之間遷徙。在評估新任務 $t_{new}$ 的配置時，我們可以在迭代一定次數之後停止訓練，使用獲得的部分學習曲線、基於在其他任務上的先前經驗來預測配置在整個數據集上的性能，以約定是否繼續訓練。這可以極大的加速對良好配置的查找過程。可以假定相似任務的學習曲線也相似，將“最近鄰”的完整曲線推廣至新的局部曲線(Leite and Brazdil, 2005, 2007)用於預測（任務相似性）。這種方法在與激活測試(active testing)的結合中很成功(Leite and Brazdil, 2010)。使用包含了訓練時間的多角度評價指標度量可以加速這種方法(van Rijn et al., 2015)。幾種方法只在預測在神經網絡搜索過程中的學習曲線 (Elsken et al., 2018)，但是該工作並沒有利用先前在其他任務中觀察到的學習曲線。

3 從任務屬性中學習

[1] 最佳的元特徵數據集取決於具體應用 (Bilalli et al., 2017)。需要系統的提取、彙總這些特徵(Pinto et al., 2016)。將所有元特徵標準化 (Bardenet et al., 2013)、執行特徵選擇 (Todorovski et al., 2000)或採用降維技術（如PCA）(Bilalli et al., 2017)。在學習元模型時，人們也可以使用關係元學習器(relational meta-learners)（Todorovski和Dzeroski，1999）或基於案例的推理方法(case-based reasoning methods)（Lindner和Studer，1999; Hilario和Kalousis，2001; Kalousis和Hilario，2003）。

[2] 除了這些通用的元特徵，人們也指定了很多更具象的元特徵。對於流形數據，人們可以使用流形標記(van Rijn et al., 2018, 2014)；對於時間序列數據，可以計算自相關係數或者回歸模型的斜率(Arinze, 1994; Prudˆencio and Ludermir, 2004; dos Santos et al., 2004)；對於無監督問題，可以採用不同方式對數據進行聚類，並提取這些聚類的屬性 (Soares et al., 2009)。在許多應用場景中，可以利用領域相關的特定信息(Smith-Miles, 2009; Olier et al., 2018)。

[3] Sun and Pfahringer (2013)實現了二元的元特徵.也可以完全基於現有的元數據學習聯合表示之前在2.3節討論過如何使用前饋神經網絡實現之(Perrone et al., 2017)。如果任務之間共享輸入空間，比如輸入是相同分辨率的圖像，那麼可以使用Siamese網絡學習元特徵表示 (Kim et al., 2017)。由於在Siamese網絡中兩個網絡的模型參數綁定，兩個相似的任務就會映射到潛在元特徵空間中的同一個區域。這可以用於對貝葉斯超參數優化(Bayesian hyperparameter optimization) (Kim et al., 2017)和神經結構搜索(neural architecture search) (Afif, 2018)的暖啓動。

[4] 從類似的任務開始熱身優化:Gomes et al. (Gomes et al., 2012)基於向量和 $m(t_{new})$ 之間的距離找到前個最爲相似的先前任務，以此獲取初始化配置.Reif et al. (2012)採用了一種非常簡單的方式，使用個簡單的、統計學的標記元特徵。他們使用前向選擇技術找到最有用的元特徵，然後使用修改的高斯變異操作(modified Gaussian mutation operation)對標準遺傳算法(GAlib)進行暖啓動。其他的方法包括使用元特徵的主動測試變體（2.3節）(Miranda and Prudencio, 2013; Leite et al., 2012)，但是性能沒有參考方法好。

SCoT (Bardenet et al., 2013)訓練一個單模型的代理排序模型 $f:M\times \Theta \rightarrow R$ ，它預測 $\theta_i$ 在任務上的秩。Schilling et al. (2015)使用修改的多層感知機作爲代理模型，該多層感知機在第一層使用基於因子分解機(factorization machines)(Rendle, 2010)的修改版激活函數，旨在爲每一個任務學習潛在的表示、用於對任務相似性建模。由於該模型不能表示不確定性，訓練100個多層感知機以獲取預測均值和模擬方差。

在所有先前元數據上訓練單個代理模型通常具有更差的可擴展性。Yogatama and Mann (2014)構建了單個貝葉斯代理模型，但是僅僅包含與 $t_{new}$ 相似的任務。Feurer et al. (2014)提出了一種更簡單、可擴展性更強的方法，通過對所有先前任務進行排序來對貝葉斯優化進行暖啓動。這種方法與Gomes et al. (2012)的方法類似，但是包含了46個簡單、統計、標記的元特徵。這種緩啓動方法用起來非常有效，並且與集成相結合 (Feurer et al., 2015)最後，可以使用協同過濾(collaborative filtering)獲取可信配置(Stern et al., 2010)。

Yang et al. (2018)使用D-優化實驗設計來對評估 $P_{i,new}$ 的初始化集合進行採樣。他們同時預測性能和運行時間，獲取又精確又快速的暖啓動配置集合。Misir and Sebag (2013)和Mısır and Sebag (2017)利用元特徵解決冷啓動問題。Fusi et al. (2017) 也使用元特徵，他們遵循和 Feurer et al. (2015)同樣的步驟，使用概率矩陣因子分解方法（採用貝葉斯優化）來進一步優化配置 $\theta_i$ 。這種方法也可以輸出對於任務和配置的可能有用的嵌入。

[5] 通過構建元模型，我們可以學習到任務的元特徵與應用場景下的特定配置之間的複雜關係，該元模型對給定新任務 $t_{new}$ 的元特徵輸出最優配置 $\Theta_{new}^*$ 。在構建用於算法選擇(Bensusan and Giraud-Carrier, 2000; Pfahringer et al., 2000; Kalousis, 2002; Bischl et al., 2016)和超參數配置 (Kuba et al., 2002; Soares et al., 2004; Ali and Smith-Miles, 2006b; Nisioti et al., 2018)的元模型方面，已經有大量的先前工作 (Brazdil et al., 2009; Lemke et al., 2015; Giraud-Carrier, 2008; Luo, 2016)。實驗表明，提升和集成樹通常輸出最佳預測，然而這需要使用準確的元特徵 (Kalousis and Hilario, 2001; Kopf and Iglezakis, 2002)。

[6] 優先級排序：元模型可以用於生成前個最可信的配置排序。一種方法是構建k近鄰元模型用於預測相似的任務，然後對這些相似任務的最佳配置進行排序 (Brazdil et al., 2003b; dos Santos et al., 2004)。這與3.3節中討論的方法類似，但與後續的優化方法無關。專用於排序的元模型表現出良好的效果，如預測聚類樹(predictive clustering trees)(Todorovski et al., 2002)和標籤排序樹(label ranking trees)(Cheng et al., 2009)。近似排序樹森林(Approximate Ranking Trees Forest, ART Forest)(Sun and Pfahringer, 2013)是快速排序樹的集成，這種方法特別有效。AutoBagging (Pinto et al., 2017)對包含有4個不同Bagging超參的Bagging工作流進行排序，它使用基於XGBoost的排序器，在140個OpenML數據集、146個元特徵上訓練。Lorena et al. (2018) 基於數據的複雜程度，使用KNN元模型和一種新的元特徵來獲取用於迴歸問題的SVM的推薦配置。

[7] 性能估計:給定任務和元特徵，元模型可以直接預測配置的性能，如準確率或訓練時間.早期的工作使用線性迴歸或基於規則的迴歸預測離散配置集合的性能，並對它們進行排序(Bensusan and Kalousis, 2001; Kopf et al., 2000)。 Guerra et al. (Guerra et al., 2008)爲每個分類算法訓練一個SVM元迴歸器，用於預測其在默認配置下、對於新任務 $t_{new}$ 在給定元特徵的情況下的準確率。Reif et al. (Reif et al., 2014)在更多的元數據上訓練類似的元迴歸器，預測其優化性能。Davis et al. (Davis and Giraud-Carrier, 2018) 使用基於多層感知機的元學習器，預測特定算法配置的性能。

除了預測可預測的性能，元迴歸器也可以用於預測算法的訓練/預測時間，如使用SVM迴歸器在元數據上訓練(Reif et al., 2011)，通過通用算法調整自身(Priya et al., 2012)。Yang et al. (2018)僅僅基於實例和特徵的數量，使用多項式迴歸器預測配置的運行時間。Hutter et al. (2014b)給出了預測算法在不同領域上的運行時間的通用論述。

在3..3節中論述的部分工作可以認爲是採用基於距離的元模型對貝葉斯優化(Feurer et al., 2014; Fusi et al., 2017)或發展算法(Gomes et al., 2012; Reif et al., 2012)進行暖啓動。原則上，這裏也可以使用其他元模型。

構建用於預測配置在給定任務上的性能的代理模型。 ( Eggensperger et al., 2018)。可以將對每個任務的預測結合起來，用於對新任務 $t_{new}$ 的暖啓動或引導其他優化技術(Feurer et al., 2018a; Perrone et al., 2017; Springenberg et al., 2016; Wistuba et al., 2018)，就像在2.3節中討論的那樣。雖然可以基於任務相似性、使用元特徵對每個任務的預測進行結合，但是收集新的觀測結果 $P_{i,new}$ 最終更爲有效，這是因爲它們允許採用每一個新的觀測結果來提煉任務相似性(Feurer et al., 2018b; Wistuba et al., 2018; Leite et al., 2012)。

[8] Pipeline Synthesis合成:設計機器學習方法的時候， (Serban et al., 2013)可用配置的數量飛速增長，因此充分利用先前經驗至關重要。一種方法是在控制搜索域的時候對方法施加一個混合結構，該結構完全由超參數集描述。然後就可以使用在相似任務上最可信的方法來對貝葉斯優化進行暖啓動 (Feurer et al., 2015; Fusi et al., 2017)。

其他的方法指出機器學習流程(pipeline)的具體步驟(Post et al., 2016; Strang et al., 2018)，可以用在構建更大的流程上，如planningg (Nguyen et al., 2014; Kietz et al., 2012; Gil et al., 2018; Wever et al., 2018) 或者進化技術(evolutionary techniques) (Olson et al., 2016; Sun et al., 2013)。 Nguyen et al. (2014)使用以元學習器推薦的組件爲基礎的波束搜索(beam search)來構建流程，就先前成功的流程樣例進行了自訓練。Bilalli et al. (2018)預測針對給定的分類算法的預處理技術。它們爲每一個目標分類算法構建一個元模型，其中給定了元特徵 $t_{new}$ ，要求預測哪些預處理技術應該包含在機器學習流程中。類似的，Schoenfeld et al. (2018)構建元模型，用於對預處理算法在何種情況下將改善特定分類器的準確率或運行時間進行預測。

AlphaD3M (Drori et al., 2018)使用了自發強化學習的方法，其中當前狀態由當前流程表示，動作包括了對流程組件的添加、刪除和替換。一個蒙特卡洛搜索(Monte Carlo Tree Search)被用於生成流程，對其進行的評估被用於訓練遞歸神經網絡(LSTM)，該網絡預測流程的性能，從而在下一輪中產生MCTS進行某種動作的概率。狀態描述還包括當前任務的元特徵，這樣就允許神經網絡跨任務學習。

[9] 爲了減少待優化的參數數量，並且在時間有限的情況下節省寶貴的優化時間，=在給定手頭任務的元特徵的情況下，人們提出元模型來預測給定的算法是否值得調整 (Ridd and Giraud-Carrier, 2014)，以及和增加額外時間投資相比對特定算法的調整可以帶來多大收益 (Sanders and Giraud-Carrier, 2017)。人們對特定學習算法進行了更有針對性的研究，提出元模型用於預測何時需要調整SVM (Mantovani et al., 2015a)、對於給定任務的優良SVM默認超參數（包括可解釋的元模型） (Mantovani et al., 2015b)以及如何調整決策樹 (Mantovani et al., 2016)。

4 Learning from Prior Models從模型中學習

[1] 在遷移學習(transfer learning) (Thrun and Pratt, 1998)中，我們採用在一個或多個源任務上訓練的模型，並將它們用作在類似目標任務 $t_{new}$ 上創建模型的起點。遷移學習方法已經被提出於核方法(Evgeniou et al., 2005; Evgeniou and Pontil, 2004)、參數貝葉斯模型(Rosenstein et al., 2005; Raina et al., 2006; Bakker and Heskes, 2003)、貝葉斯網絡(Niculescu-Mizil and Caruana, 2005)、聚類 (Thrun, 1998) 和強化學習 (Hengst, 2002; Dietterich et al., 2002)。

產生預訓練的模型，然後可以使用在 $t_{new}$ 上可用的訓練數據進行進一步的微調(Thrun and Mitchell, 1995; Baxter, 1996; Bengio, 2012; Caruana, 1995)。在某些情況下，源網絡可能需要在遷移之前做修正(Sharkey and Sharkey, 1993)。

特別大的圖像數據集如ImageNet (Krizhevsky et al., 2012)已被證明可以產生可良好遷移至其他任務的預訓練模型(Donahue et al., 2014; Sharif Razavian et al., 2014)。然而，當目標任務不那麼相似時，這種方法不能很好的起作用(Yosinski et al., 2014)。我們可以有目的地爲元學習器提供歸納偏見(inductive bias)，使它們能夠更快地學習新任務，而不是希望預訓練模型能夠更好地遷移到新問題中.

[2] 可以使用梯度下降來聯合優化網絡和訓練算法，但是很難訓練。後來的工作使用了跨任務的強化學習來將搜索策略(Schmidhuber et al., 1997) 或用於梯度下降的學習率 (Daniel et al., 2016)適應到手頭的任務。受到反向傳播不太可能是我們自己大腦的學習機制這一感覺的啓發，Bengio et al. (1995) 用簡單的受生物學啓發的參數規則（或演化規則 (Chalmers, 1991)）取代反向傳播，來更新突觸權重。在一組輸入任務中使用例如梯度下降或演化的方法來優化參數。Runarsson and Jonsson (2000)使用單層神經網絡取代這些參數規則。Santoro et al. (2016b) 改爲使用記憶增強神經網絡，用於學習如何存儲和檢索先前分類任務的“記憶”。Hochreiter et al. (2001) 使用LSTM(Hochreiter and Schmidhuber, 1997) 作爲元學習器，來訓練多層感知機。

[3] 元學習優化器：Andrychowicz et al. (2016)將優化器（如隨機梯度下降）替換爲在多個先前任務上訓練的LSTM。元學習器（優化器）的損失被定義爲基礎學習器（優化器）的損失之和，使用梯度下降進行優化。在每一步中，元學習器基於前一步的學習模型權重 $\{w_k\}$ 以及當前性能梯度，選擇估計的權重更新，以最大程度地減少優化器的損失。後來的工作使用梯度下降在合成函數上訓練優化器來通用化這種方法(Chen et al., 2016) 。這允許元學習器對優化器進行優化，即便它們無法訪問到梯度。同時，Li and Malik (2016)從強化學習的角度提出了學習優化算法的框架。它將任意特定優化算法表示爲策略，然後通過引導策略搜索學習此策略。後續工作(Li and Malik, 2017)展示瞭如何利用這種方法來學習到（淺層）神經網絡的優化算法。

【小樣本學習】

希望構建能夠做到這一點的機器學習模型(Lake et al., 2017)。這方面的一個特定例子是“K樣本N路”(K-shot N-way)分類，其中我們給出某些類（如對象）的許多樣例（如圖像），希望學習到一個分類器 $l_{new}$ ，該分類器可以僅僅使用每個新類的個樣本對個新類進行分類

[1] 早期的關於單樣本學習的工作主要基於手動設計的特徵 (Fei-Fei et al., 2006; Fei-Fei, 2006; Fink, 2005; Bart and Ullman, 2005)。然而，通過元學習，我們希望以端到端(不用人的參與)的方式學習所有任務的共同特徵表示。

Vinyals et al. (2016)指出，如果要從非常少的數據中學習，應該尋找非參數模型（如K近鄰），它們使用記憶組件(memory component)，而不是學習很多模型參數。

[2] Snell et al. (2017)提出原型網絡(Prototypical Networks)，它將樣例映射到維向量空間，是的給定輸出類別的樣例彼此接近。然後它爲每一個類別計算原型（平均向量）。新樣例會被映射到相同的向量空間，使用距離度量在所有可能的類別間創建softmax。Ren et al. (2018)將這種方法擴展到半監督學習。

[3] Ravi and Larochelle (2017)使用基於LSTM的元學習器來學習用於訓練神經網絡學習器的更新規則。對於每一個新樣例，學習器將當前梯度和損失返回給LSTM元學習器，然後LSTM元學習器會更新學習器的模型參數 $\{w_k\}$ 。元學習器在所有先前任務上進行訓練。

【MAML】

[4] 模型不可知元學習(Model-Agnostic Meta-Learning, MAML) (Finn et al., 2017) 並不試圖更新學習規則，而是學習模型的初始化參數 $W_{init}$ ，它能更好的概括類似的任務。開始的權重的隨機初始化 $\{w_k\}$ ，它迭代的選擇一批先前任務，對每一個任務在個樣例上訓練學習器，計算梯度和（在測試集上）損失。然後，對元梯度進行反向傳播，在更容易更新的方向上更新權重 $\{w_k\}$ 。換句話說，在每次迭代之後，權重 $\{w_k\}$ 會變成更易於對任意任務進行微調的 $W_{init}$ 。Finn and Levine (2017)表明，當使用足夠深的ReLU網絡和正確的損失時，MAML可以近似任意學習算法。他們同時還得出結論，MAML初始化方法對於小樣本上的過擬合更具有彈性（更容易從過擬閤中恢復），相比於基於LSTM的元學習方法的通用性更好。Grant et al. (2018) 呈現了MAML的新穎推導和擴展，說明該算法可以理解爲分層貝葉斯模型中對先驗分佈的參數模型的推斷。

[5] PERPTILE (Nichol et al., 2018) 是對MAML的近似，這種方法對給定任務的次迭代執行算計梯度下降，然後在獲得的權重方向上逐漸移動初始化權重。這種方法基於這樣一種直覺，即每個任務可能有一組以上的最佳權重 $\{w_i^*\}$ ，目標是爲每個任務找到接近至少其中一個 $\{w_i^*\}$ 的 $W_{init}$ 。

[6] 最後，我們可以從黑盒神經網絡中導出元學習器。Santoro et al. (2016a) 提出記憶增強神經網絡(Memory-Augmented Neural Network, MANNs)，這種方法訓練神經圖靈機(Neural Turing Machine, NTM) (Graves et al., 2014) 作爲元學習器，這是一種具有增強記憶能力的神經網絡。這個元學習器可以記住有關先前任務的信息，並利用這些信息學習到學習器 $l_{new}$ 。SNAIL (Mishra et al., 2018)是一種通用的元學習器架構，由交織的時間卷積和因果關注層組成。卷積網絡學習到訓練樣例（圖像）的通用特徵向量，以將來自過去經驗的信息進行聚合。因果關注層從所收集的經驗中挑選出用於推廣到新任務的信息。

【監督學習之外】

[7] 元學習當然不僅限於（半）監督學習，它也已經成功應用於解決一系列任務，如強化學習，主動學習，密度估計和項目推薦。在監督元學習器時，基礎學習器可能是無監督的，但是其他組合也是有可能的。

[8] Duan et al. (2016) 提出了一種端到端的強化學習(Reinforcement Learning, RL)方法，這種方法由針對特定任務的快速RL算法組成，這些算法由通用慢速RL算法所引導。這些任務是相互關聯的馬爾科夫決策過程(Markov Decision Process, MDPs)。元RL算法被建模爲RNN，以接受其觀測結果、動作、獎勵和終止標誌。RNN的激活狀態存儲了快速RL學習器的狀態，通過觀測夸人物的快速學習器的性能來學習RNN的權重。

Wang et al. (2016) 提出使用深度RL算法訓練RNN，獲取先前間隔的動作和獎勵，用於學習用於特定任務的基準RL算法。這種方法不是使用諸如MDP之類的相對非結構化的任務，而是關注結構化任務分佈（如依賴性匪徒），其中元RL算法可以利用固有任務結構。

[9] Pang et al. (2018) 提供了一種用於主動學習(Active Learning, AL)的元學習方法。基準學習器可以是任意的二分類器，元學習器是一個深度RL網絡，由深度神經網絡和策略網絡組成，其中深度神經網絡學習跨任務的AL問題表示，策略網絡學習最優策略，在網絡中被參數化爲權重。元學習器獲取當前狀態（無標籤點集和基礎分類器狀態）和獎勵（基礎分類器的性能），輸出質詢概率，即在未標記的集合中指向下一次質詢的概率。

[10] Reed et al. (2017) 提示了一種用於密度估計(Density Estimation, DE)的小樣本學習方法。目標是學習少量具有特定概念的圖像的概率分佈，以用於生成具有這種概念的圖像，或者計算圖像具有這種概念的概率。這種方法使用自動迴歸圖像模型，將聯合分佈分解爲單像素因子，通常以（許多）目標概念的樣例作爲條件。使用了基於MAML的小樣本學習器，在事多其他（類似的）概念的樣例上進行訓練。

[11] Vartak et al. (2017) 解決了矩陣分解中的冷啓動問題。他們提出一種深度神經網絡結構，用於學習一個（基礎）神經網絡，其偏差根據任務信息進行適應。雖然神經網絡推薦器的結構和權重保持固定，但是元學習器可以學習到如何根據每個用戶的項目歷史來適應偏差。

所有這些最近的新的發展表明，通過元學習角度(meta-learning lens)觀察問題，並找到新的數據驅動的方法，來取代基於手工的基礎學習器，是富有成效的。

0 綜述

[1] Meta-Learning: A Survey

[2] a perspective view and survey of meta-learning

1 Legacy Papers

[1] Nicolas Schweighofer and Kenji Doya. Meta-learning in reinforcement learning. Neural Networks, 16(1):5–9, 2003.已讀[2] Sepp Hochreiter, A Steven Younger, and Peter R Conwell. Learning to learn using gradient descent. In International Conference on Artificial Neural Networks, pages 87–94. Springer, 2001.已讀

[3] Kunikazu Kobayashi, Hiroyuki Mizoue, Takashi Kuremoto, and Masanao Obayashi. A meta-learning method based on temporal difference error. In International Conference on Neural Information Processing, pages 530–537. Springer, 2009.

[4] Sebastian Thrun and Lorien Pratt. Learning to learn: Introduction and overview. In Learning to learn, pages 3–17. Springer, 1998.沒有免費版

[5] A Steven Younger, Sepp Hochreiter, and Peter R Conwell. Meta-learning with backpropagation. In Neural Networks, 2001. Proceedings. IJCNN’01. International Joint Conference on, volume 3. IEEE, 2001.已讀

[6] Ricardo Vilalta and Youssef Drissi. A perspective view and survey of meta-learning. Artificial Intelligence Review, 18(2):77–95, 2002.

[7] Hugo Larochelle, Dumitru Erhan, and Yoshua Bengio. Zero-data learning of new tasks. In AAAI, volume 1, pp. 3, 2008.

[8] Brenden M Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua B Tenenbaum.One shot learning of simple visual concepts. In Proceedings of the 33rd Annual Conference of the Cognitive Science Society, volume 172, pp. 2, 2011.

[9] Li Fei-Fei, Rob Fergus, and Pietro Perona. One-shot learning of object categories. IEEE transactions on pattern analysis and machine intelligence, 28(4):594–611, 2006.

[10] Ju ̈rgen Schmidhuber. A neural network that embeds its own meta-levels. In Neural Networks, 1993., IEEE International Conference on, pp. 407–412. IEEE, 1993.

[11] Sebastian Thrun. Lifelong learning algorithms. In Learning to learn, pp. 181–209. Springer, 1998.

[12] Yoshua Bengio, Samy Bengio, and Jocelyn Cloutier. Learning a synaptic learning rule. Universite ́ de Montre ́al, De ́partement d’informatique et de recherche ope ́rationnelle, 1990.

[13] Samy Bengio, Yoshua Bengio, and Jocelyn Cloutier. On the search for new learning rules for ANNs. Neural Processing Letters, 2(4):26–30, 1995.

[14] Rich Caruana. Learning many related tasks at the same time with backpropagation. Advances in neural information processing systems, pp. 657–664, 1995.

[15] Giraud-Carrier, Christophe, Vilalta, Ricardo, and Brazdil, Pavel. Introduction to the special issue on meta-learning. Machine learning, 54(3):187–193, 2004.

[16] Jankowski, Norbert, Duch, Włodzisław, and Grabczewski, Krzysztof. Meta-learning in computational intelligence, volume 358. Springer Science & Business Media, 2011.

[17] N. E. Cotter and P. R. Conwell. Fixed-weight networks can learn. In International Joint Conference on Neural Networks, pages 553–559, 1990.

[18] J. Schmidhuber. Evolutionary principles in self-referential learning; On learning how to learn: The meta-meta-... hook. PhD thesis, Institut f. Informatik, Tech. Univ. Munich, 1987.

[19] J. Schmidhuber. Learning to control fast-weight memories: An alternative to dynamic recurrent networks. Neural Computation, 4(1):131–139, 1992.

[20] Jurgen Schmidhuber, Jieyu Zhao, and Marco Wiering. Simple principles of metalearning. Technical report, SEE, 1996.

[21] Thrun, Sebastian and Pratt, Lorien. Learning to learn. Springer Science & Business Media, 1998.

2 Recent Papers

[1] Andrychowicz, Marcin, Denil, Misha, Gomez, Sergio, Hoffman, Matthew W, Pfau, David, Schaul, Tom, and de Freitas, Nando. Learning to learn by gradient descent by gradient descent. In Advances in Neural Information Processing Systems, pp. 3981–3989, 2016

參考介紹：https://blog.csdn.net/weixin_41803874/article/details/89846358

[2] Ba, Jimmy, Hinton, Geoffrey E, Mnih, Volodymyr, Leibo, Joel Z, and Ionescu, Catalin. Using fast weights to attend to the recent past. In Advances In Neural Information Processing Systems, pp. 4331–4339, 2016

[3] David Ha, Andrew Dai and Le, Quoc V. Hypernetworks. In ICLR 2017, 2017.

[4] Koch, Gregory. Siamese neural networks for one-shot image recognition. PhD thesis, University of Toronto, 2015.

[5] Lake, Brenden M, Salakhutdinov, Ruslan R, and Tenenbaum, Josh. One-shot learning by inverting a compositional causal process. In Advances in neural information processing systems, pp. 2526–2534, 2013.

[6] Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew, Wierstra, Daan, and Lillicrap, Timothy. Meta-learning with memory-augmented neural networks. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1842–1850, 2016.

[7] Vinyals, Oriol, Blundell, Charles, Lillicrap, Tim, Wierstra, Daan, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pp. 3630–3638, 2016.

[8] Kaiser, Lukasz, Nachum, Ofir, Roy, Aurko, and Bengio, Samy. Learning to remember rare events. In ICLR 2017, 2017.

[9] P. Mirowski, R. Pascanu, F. Viola, H. Soyer, A. Ballard, A. Banino, M. Denil, R. Goroshin, L. Sifre, K. Kavukcuoglu, D. Kumaran, and R. Hadsell. Learning to navigate in complex environments. Techni- cal report, DeepMind, 2016.

[10] B. Zoph and Q. V. Le. Neural architecture search with reinforcement learning. Technical report, submitted to ICLR 2017, 2016.

[11] Y. Duan, J. Schulman, X. Chen, P. Bartlett, I. Sutskever, and P. Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. Technical report, UC Berkeley and OpenAI, 2016.

[12] Li, Ke and Malik, Jitendra. Learning to optimize. International Conference on Learning Representations (ICLR), 2017.

[13] Edwards, Harrison and Storkey, Amos. Towards a neural statistician. International Conference on Learning Representations (ICLR), 2017.

[14] Parisotto, Emilio, Ba, Jimmy Lei, and Salakhutdinov, Ruslan. Actor-mimic: Deep multitask and transfer reinforcement learning. International Conference on Learning Representations (ICLR), 2016.

[15] Ravi, Sachin and Larochelle, Hugo. Optimization as a model for few-shot learning. In International Conference on Learning Representations (ICLR), 2017.

參考介紹：https://blog.csdn.net/weixin_41803874/article/details/89314900

[16] Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. arXiv preprint arXiv:1703.03400.

[17] Chen, Y., Hoffman, M. W., Colmenarejo, S. G., Denil, M., Lillicrap, T. P., & de Freitas, N. (2016). Learning to Learn for Global Optimization of Black Box Functions. arXiv preprint arXiv:1611.03824.

[18] Munkhdalai T, Yu H. Meta Networks. arXiv preprint arXiv:1703.00837, 2017.

[19] Duan Y, Andrychowicz M, Stadie B, et al. One-Shot Imitation Learning. arXiv preprint arXiv:1703.07326, 2017.

[20] Woodward M, Finn C. Active One-shot Learning. arXiv preprint arXiv:1702.06559, 2017.

[21] Wichrowska O, Maheswaranathan N, Hoffman M W, et al. Learned Optimizers that Scale and Generalize. arXiv preprint arXiv:1703.04813, 2017.

[22] Hariharan, Bharath, and Ross Girshick. Low-shot visual object recognition arXiv preprint arXiv:1606.02819 (2016).

[23] Wang J X, Kurth-Nelson Z, Tirumala D, et al. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.

[24] Flood Sung, Zhang L, Xiang T, Hospedales T, et al. Learning to Learn: Meta-Critic Networks for Sample Efficient Learning. arXiv preprint arXiv:1706.09529, 2017.

[25] Li Z, Zhou F, Chen F, et al. Meta-SGD: Learning to Learn Quickly for Few Shot Learning. arXiv preprint arXiv:1707.09835, 2017.

[26] Mishra N, Rohaninejad M, Chen X, et al. Meta-Learning with Temporal Convolutions. arXiv preprint arXiv:1707.03141, 2017.

[27] Frans K, Ho J, Chen X, et al. Meta Learning Shared Hierarchies. arXiv preprint arXiv:1710.09767, 2017.

[28] Finn C, Yu T, Zhang T, et al. One-shot visual imitation learning via meta-learning. arXiv preprint arXiv:1709.04905, 2017.

[29] Flood Sung, Yongxin Yang, Zhang Li, Xiang T,Philip Torr, Hospedales T, et al Learning to Compare: Relation Network for Few Shot Learning. arXiv preprint arXiv:1711.06025, 2017.

[30] Brenden M Lake, Ruslan Salakhutdinov, Joshua B Tenenbaum Human-level concept learning through probabilistic program induction. In Science, volume 350, pp. 1332-1338, 2015.

[32] Xu D, Nair S, Zhu Y, et al. Neural task programming: Learning to generalize across hierarchical tasks. arXiv preprint arXiv:1710.01813, 2017.

[33] Bertinetto, L., Henriques, J. F., Valmadre, J., Torr, P., & Vedaldi, A. (2016). Learning feed-forward one-shot learners. In Advances in Neural Information Processing Systems (pp. 523-531).

[34] Wang, Yu-Xiong, and Martial Hebert. Learning to learn: Model regression networks for easy small sample learning.European Conference on Computer Vision. Springer International Publishing, 2016.

[35] Triantafillou, Eleni, Hugo Larochelle, Jake Snell, Josh Tenenbaum, Kevin Jordan Swersky, Mengye Ren, Richard Zemel, and Sachin Ravi. Meta-Learning for Semi-Supervised Few-Shot Classification. ICLR 2018.

[36] Rabinowitz, Neil C., Frank Perbet, H. Francis Song, Chiyuan Zhang, S. M. Eslami, and Matthew Botvinick. Machine Theory of Mind. arXiv preprint arXiv:1802.07740 (2018).

[37] Reed, Scott, Yutian Chen, Thomas Paine, Aäron van den Oord, S. M. Eslami, Danilo Rezende, Oriol Vinyals, and Nando de Freitas. Few-shot Autoregressive Density Estimation: Towards Learning to Learn Distributions. arXiv preprint arXiv:1710.10304 (2017).

[38] Xu, Zhongwen, Hado van Hasselt, and David Silver. Meta-Gradient Reinforcement Learning arXiv preprint arXiv:1805.09801 (2018).

[39] Xu, Kelvin, Ellis Ratner, Anca Dragan, Sergey Levine, and Chelsea Finn. Learning a Prior over Intent via Meta-Inverse Reinforcement Learning arXiv preprint arXiv:1805.12573 (2018).

[40] Finn, Chelsea, Kelvin Xu, and Sergey Levine. Probabilistic Model-Agnostic Meta-Learning arXiv preprint arXiv:1806.02817 (2018).

[41] Gupta, Abhishek, Benjamin Eysenbach, Chelsea Finn, and Sergey Levine. Unsupervised Meta-Learning for Reinforcement Learning arXiv preprint arXiv:1806.04640(2018).

[42] Yoon, Sung Whan, Jun Seo, and Jaekyun Moon. Meta Learner with Linear Nulling arXiv preprint arXiv:1806.01010 (2018).

[43] Kim, Taesup, Jaesik Yoon, Ousmane Dia, Sungwoong Kim, Yoshua Bengio, and Sungjin Ahn. Bayesian Model-Agnostic Meta-Learning arXiv preprint arXiv:1806.03836 (2018).

[44] Gupta, Abhishek, Russell Mendonca, YuXuan Liu, Pieter Abbeel, and Sergey Levine. Meta-Reinforcement Learning of Structured Exploration Strategies arXiv preprint arXiv:1802.07245 (2018).

[45] Clavera, Ignasi, Anusha Nagabandi, Ronald S. Fearing, Pieter Abbeel, Sergey Levine, and Chelsea Finn. Learning to Adapt: Meta-Learning for Model-Based Control arXiv preprint arXiv:1803.11347 (2018).

[46] Houthooft, Rein, Richard Y. Chen, Phillip Isola, Bradly C. Stadie, Filip Wolski, Jonathan Ho, and Pieter Abbeel. Evolved policy gradients arXiv preprint arXiv:1802.04821 (2018).

[47] Xu, Tianbing, Qiang Liu, Liang Zhao, Wei Xu, and Jian Peng. Learning to Explore with Meta-Policy Gradient arXiv preprint arXiv:1803.05044 (2018).

[48] Stadie, Bradly C., Ge Yang, Rein Houthooft, Xi Chen, Yan Duan, Yuhuai Wu, Pieter Abbeel, and Ilya Sutskever. Some considerations on learning to explore via meta-reinforcement learning arXiv preprint arXiv:1803.01118 (2018).

[49] Luca Bertinetto, Joao F. Henriques, Philip Torr and Andrea Vedaldi. Meta-learning with differentiable closed-form solvers arXiv preprint arXiv:1805.08136 (2018).

[50] Yoonho Lee, Seungjin Choi. Gradient-Based Meta-Learning with Learned Layerwise Metric and Subspace. ICML 2018.

最前沿：百家爭鳴的Meta Learning/Learning to learn

1 前言

Meta Learning 元學習或者叫做 Learning to Learn 學會學習已經成爲繼Reinforcement Learning 增強學習之後又一個重要的研究分支（以後僅稱爲Meta Learning）。對於人工智能的理論研究，呈現出了

Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta Learning

這樣的趨勢。

之所以會這樣發展完全取決於當前人工智能的發展。在Machine Learning時代，複雜一點的分類問題效果就不好了，Deep Learning深度學習的出現基本上解決了一對一映射的問題，比如說圖像分類，一個輸入對一個輸出，因此出現了AlexNet這樣的里程碑式的成果。但如果輸出對下一個輸入還有影響呢？也就是sequential decision making的問題，單一的深度學習就解決不了了，這個時候Reinforcement Learning增強學習就出來了，Deep Learning + Reinforcement Learning = Deep Reinforcement Learning深度增強學習。有了深度增強學習，序列決策初步取得成效，因此，出現了AlphaGo這樣的里程碑式的成果。但是，新的問題又出來了，深度增強學習太依賴於巨量的訓練，並且需要精確的Reward，對於現實世界的很多問題，比如機器人學習，沒有好的reward，也沒辦法無限量訓練，怎麼辦？這就需要能夠快速學習。而人類之所以能夠快速學習的關鍵是人類具備學會學習的能力，能夠充分的利用以往的知識經驗來指導新任務的學習，因此Meta Learning成爲新的攻克的方向。

以此同時，星際2 DeepMind使用現有深度增強學習算法失效說明了目前的深度增強學習算法很難應對過於複雜的動作空間的情況，特別是需要真正意義的戰略戰術思考的問題。這引到了通用人工智能中極其核心的一個問題就是要讓人工智能自己學會思考，學會推理。AlphaGo在我看來在棋盤特徵輸入到神經網絡的過程中完成了思考，但是圍棋的動作空間畢竟非常有限，也就是幾百個選擇，這和星際2幾乎無窮的選擇對比就差太多了（按屏幕分辨率*鼠標加鍵盤的按鍵 = 1920*1080*10 約等於20,000,000種選擇）。然而在如此巨量選擇的情況下，人類依然沒問題，關鍵是人類通過確定的戰略戰術大幅度降低了選擇範圍（比如當前目標就是造人，挖礦）因此如何使人工智能能夠學會思考，構造戰術非常關鍵。這個問題甚至比快速學習還要困難，但是Meta Learning因爲具備學會學習的能力，或許也可以學會思考。因此，Meta Learning依然是學會思考這種高難度問題的潛在解決方法之一。

經過以上的分析，不過是爲了得出下面的結論：

Meta Learning是實現通用人工智能的關鍵！

在本文之前，專欄已經發布了兩篇和Meta Learning相關的文章：

之前採用Learning to Learn這個名稱是希望讓更多的知友明白這個概念，從本篇開始，我們會直接使用Meta Learning這個名稱（其實只是因爲這個名稱看起來更專業更酷?）

關於Meta Learning的概念本文就不介紹了，在上面列出的兩篇Blog已有講解。本文將和大家分享一下Meta Learning的一些最前沿的研究進展，可以說是百家爭鳴的階段。

2 Meta Learning百花齊放的研究思路

爲什麼說Meta Learning的研究是百家爭鳴呢？因爲每一家的研究思路都完全不同，真的是各種方法各種試，呈現出一種智慧大爆發的階段。

關於Meta Learning的papers，我收集了一下：

songrotek/Meta-Learning-Papers

這裏主要分析一下最近一兩年來的發展情況，先作個分類，然後做一下簡要的分析。

2.1 基於記憶Memory的方法

基本思路：既然要通過以往的經驗來學習，那麼是不是可以通過在神經網絡上添加Memory來實現呢？

代表文章：

[1] Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew, Wierstra, Daan, and Lillicrap, Timothy. Meta-learning with memory-augmented neural networks. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1842–1850, 2016.

[2] Munkhdalai T, Yu H. Meta Networks. arXiv preprint arXiv:1703.00837, 2017.

以Meta-Learning with memory-augmented neural networks這篇文章爲例，我們看一下他的網絡結構：

我們可以看到，網絡的輸入把上一次的y label也作爲輸入，並且添加了external memory存儲上一次的x輸入，這使得下一次輸入後進行反向傳播時，可以讓y label和x建立聯繫，使得之後的x能夠通過外部記憶獲取相關圖像進行比對來實現更好的預測。

2.2 基於預測梯度的方法

基本思路：既然Meta Learning的目的是實現快速學習，而快速學習的關鍵一點是神經網絡的梯度下降要準，要快，那麼是不是可以讓神經網絡利用以往的任務學習如何預測梯度，這樣面對新的任務，只要梯度預測得準，那麼學習得就會更快了？

代表文章：

[1] Andrychowicz, Marcin, Denil, Misha, Gomez, Sergio, Hoffman, Matthew W, Pfau, David, Schaul, Tom, and de Freitas, Nando. Learning to learn by gradient descent by gradient descent. In Advances in Neural Information Processing Systems, pp. 3981–3989, 2016

這篇文章的思路很清奇，訓練一個通用的神經網絡來預測梯度，用一次二次方程的迴歸問題來訓練，然後這種方法得到的神經網絡優化器比Adam，RMSProp還要好，這樣顯然就加快了訓練。

2.3 利用Attention注意力機制的方法

基本思路：人的注意力是可以利用以往的經驗來實現提升的，比如我們看一個性感圖片，我們會很自然的把注意力集中在關鍵位置。那麼，能不能利用以往的任務來訓練一個Attention模型，從而面對新的任務，能夠直接關注最重要的部分。

代表文章：

[1] Vinyals, Oriol, Blundell, Charles, Lillicrap, Tim, Wierstra, Daan, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pp. 3630–3638, 2016.

這篇文章構造一個attention機制，也就是最後的label判斷是通過attention的疊加得到的：

$\bar{y} = \sum_{i=1}^{k}{a(\bar{x},x_i)}y_i$

attention a則通過g和f得到。基本目的就是利用已有任務訓練出一個好的attention model。

2.4 借鑑LSTM的方法

基本思路：LSTM內部的更新非常類似於梯度下降的更新？？？，那麼，能否利用LSTM的結構訓練出一個神經網絡的更新機制，輸入當前網絡參數，直接輸出新的更新參數？這個想法非常巧妙。

代表文章：

[1] Ravi, Sachin and Larochelle, Hugo. Optimization as a model for few-shot learning. In International Conference on Learning Representations (ICLR), 2017.

這篇文章的核心思想是下面這一段：

怎麼把LSTM的更新和梯度下降聯繫起來纔是更值得思考的問題吧。

2.5 面向RL的Meta Learning方法

基本思路：既然Meta Learning可以用在監督學習，那麼增強學習上又可以怎麼做呢？能否通過增加一些外部信息的輸入比如reward獎勵，之前的action來實現？

代表文章：

[1] Wang J X, Kurth-Nelson Z, Tirumala D, et al. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.

[2] Y. Duan, J. Schulman, X. Chen, P. Bartlett, I. Sutskever, and P. Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. Technical report, UC Berkeley and OpenAI, 2016.

兩篇文章思路一致，就是額外增加reward和之前action的輸入，從而強制讓神經網絡學習一些任務級別的信息：

2.6 通過訓練一個好的base model的方法，並且同時應用到監督學習和增強學習

基本思路：之前的方法都只能侷限在或者監督學習或者增強學習上，能不能搞個更通用的呢？是不是相比finetune學習一個更好的base model就能work？

代表文章：

[1] Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. arXiv preprint arXiv:1703.03400.

這篇文章的基本思路是同時啓動多個任務，然後獲取不同任務學習的合成梯度方向來更新，從而學習一個共同的最佳base。

2.7 利用WaveNet的方法

基本思路：WaveNet的網絡每次都利用了之前的數據，那麼是否可以照搬WaveNet的方式來實現Meta Learning呢？就是充分利用以往的數據呀？

代表文章：

[1] Mishra N, Rohaninejad M, Chen X, et al. Meta-Learning with Temporal Convolutions. arXiv preprint arXiv:1707.03141, 2017.

直接利用之前的歷史數據，思路極其簡單，效果極其之好，是目前omniglot，mini imagenet圖像識別的state-of-the-art。

2.8 預測Loss的方法

基本思路：要讓學習的速度更快，除了更好的梯度，如果有更好的loss，那麼學習的速度也會更快，因此，是不是可以構造一個模型利用以往的任務來學習如何預測Loss呢？

代表文章：

[1] Flood Sung, Zhang L, Xiang T, Hospedales T, et al. Learning to Learn: Meta-Critic Networks for Sample Efficient Learning. arXiv preprint arXiv:1706.09529, 2017.

本文構造了一個Meta-Critic Network（包含Meta Value Network和Task-Actor Encoder）來學習預測Actor Network的Loss。對於Reinforcement Learning而言，這個Loss就是Q Value。

本文詳細分析詳見：學會學習Learning to Learn：讓AI擁有核心價值觀從而實現快速學習

本文紐約大學的Kyunghyun Cho 做了評價：

也算是一種全新的思路

我的補充

1.結合在線學習的方法

Online Meta-Learning-2019。講MAML模型與在線學習的FTL算法相結合，提出FTML模型。使得MAML模型能夠處理序列輸入，而不是需要準備一堆任務數據來訓練模型。參考：Online Meta-Learning2019||論文閱讀

3 小結

從上面的分析可以看出，Meta Learning方興未艾，各種神奇的idea層出不窮，但是真正的殺手級算法還未出現，非常期待未來的發展！也希望更多的朋友們可以投入到Meta Learning這個研究方向上來。

元學習文章彙總||文章分類總結||閱讀線索

Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning

meta-learning：a survey 論文的元學習模型分類

2 基於模型評估的辦法

3 從任務屬性中學習

4 Learning from Prior Models從模型中學習

0 綜述

1 Legacy Papers

2 Recent Papers

最前沿：百家爭鳴的Meta Learning/Learning to learn

1 前言

2 Meta Learning百花齊放的研究思路

3 小結

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Adaptive Cross-Modal Few-shot Learning

Cross Attention Network for Few-shot Classification

python的代碼目錄結構設計

pytorch圖像可視化

學術答辯PPT模板分享

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結