論文《Continual Unsupervised Representation Learning》解讀

原創

寒居ykc

2020-04-27 17:35

這篇論文提出了他們的表示學習的模型，即CURL（Continual Unsupervised Representation Learning）。這個模型包含以下三大部分，推斷任務。動態拓展，混合生成回放。

推斷任務

在上圖中，x是輸入到數據，經過共享層的編碼，將數據進行處理。其中，經過softmax，根據 $q(y|x)$ 確定輸入的數據屬於哪個任務。此外，經過特定組件的編碼獲得這個任務對應的高斯參數即 $\mu_z(y)、\sigma_z(y)$ ，高斯參數確定後即可確定潛在變量 $z$ 的表示，然後對z通過解碼器輸出重構後的 $x$ ， $x^{'}$ 。

關於這塊如何將 $x$ 爲 $z$ ，可參照源碼：在reparameterize函數中，可以看到 $z$ 被在期望與方差的作用下被編碼。

上面模型的loss公式爲：

對於給定的數據點，模型可以選擇高熵的 $q(y|x)$ ，在這種情況下，所有的組件損失必須是低的，或者爲某個 $k$ 指定高 $q(y = k|x)$ ，並使用該組件對數據進行建模。通過利用輸入數據的多樣性，該模型可以學會對數據中不同的離散結構(例如類)使用不同的組件。

在上圖中， $y$ 代表當前的任務， $z$ 代表針對 $y$ 生成的特定任務參數的分佈。 $z$ 會在解碼器中解碼再生成 $x^{'}$ 。

動態拓展

在這一部分，模型會維護一些差建模的樣本即無法良好提取特徵的 $x$ ，當樣本集（任務集）大小達到臨界值時，則初始化新的組件到上圖Figure 2中。那麼何時創建新的組件呢，在CURL模型中，主要通過閾值來控制新組件的創建。即：存在一個集合 $D_{new}$ ，當任意一個帶有對數極大似然值小於 $c_{new}$ 的樣本，都添加到 $D_{new}$ ，當 $D_{new}$ 中的樣本數達到 $N_{new}$ ，我們就創建新組件，每個組件對應一個概念（或者說一種類型的任務）。這個組件的各個參數的賦值如下，即將既有的組件中能夠與 $D_{new}$ 中樣本集既有的任務滿足近似條件概率之和最大：

直觀的說，就是新的組件（概念/任務類型）與既有的組件（概念/任務類型）關聯儘可能大。也就是循序漸進的插入新的不同的組件。

混合生成回放

爲了對抗災難性遺忘，本模型提出了混合生成回放。這個方法的的思想是交替的將真實數據 $x_{data} \in D$ 與生成數據 $x_{gen}$ （這種數據是基於先前的模型快照生成的）交替的用於訓練。爲了充分利用此前的信息，模型會保持一個count，這個count由此前的組件使用情況所決定，這將有利於使用的最頻繁的組件，這個過程稱爲混合生成回放。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文《Continual Unsupervised Representation Learning》解讀

推斷任務

動態拓展

混合生成回放

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

leetcode數組：面試題 01.07. 旋轉矩陣

tensorflow代碼 loss不改變權重不改變

ValueError: Trainable variable created when calling a template after the first time,xxxxxx

如何進行斷點調試-------以pycharm爲例

tensorflow_datasets數據集加載出錯

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結