Google用更少標籤生成圖像,還提出一個用於訓練評估GAN的庫

譯者 | 劉暢

責編 | 琥珀

出品 | AI科技大本營(ID:rgznai100)

生成對抗網絡(GAN)是屬於一種強有力的深度生成模型。GAN 的主要思想是訓練兩個神經網絡:一個是學習如何合成數據(如圖像)的生成器( generator),另一個是學習如何區分真實數據與生成器合成數據的判別器(discriminator)。這類方法已經成功應用於高保真自然圖像合成、提升模型圖像壓縮、數據增強等方面。

圖注:在ImageNet上訓練時,生成樣本的演變過程。 生成網絡是根據類別來生成的(如“灰貓頭鷹”或“金毛獵犬”)。

對於自然圖像合成,條件GAN(Conditional Generative Adversarial Nets)能實現最好的結果。與無條件 GAN 不同,條件 GAN 在訓練期間會使用標籤(如汽車、狗等)。 雖然這使得該任務更容易並且有明顯的效果提升,但是這種方法需要大量的標記數據,因此在實踐中很少可用。

在《使用更少標籤生成高保真圖像》(High-Fidelity Image Generation With Fewer Labels)這篇論文中,研究人員提出了一種新方法來減少條件GAN訓練時所需的標記數據量。 結合 GAN 的最新進展,他們將高保真自然圖像合成技術與最先進的技術相結合,使所需的標籤數量減少了 10 倍。

論文傳送門:https://arxiv.org/abs/1903.02271

基於這項研究,研究人員還在 Compare GAN 庫中發佈了一個重大更新,其中 Compare GAN 庫是一個包含訓練和評估 GAN 所有組件的工具庫。

使用半監督和自監督進行提升

在條件 GAN 中,生成器和判別器通常都是以類標籤爲條件。在這項工作中,我們提出用推斷的標籤去替代手工註釋的標籤。 爲了使大型數據集中大多數未標記數據被推斷出來的標籤質量更高,我們採取兩步法:

首先,我們僅使用數據集未標記的部分來學習特徵表示。爲了學習特徵表示,我們將最近的方法都用在了自監督上,也就是當深度卷積神經網絡的任務是預測旋轉角度時,我們會對未標記圖像的進行隨機旋轉。背後的想法是模型需要能夠識別主要的目標及形狀才能在此任務中取得成功。

圖注:這張未標記圖像被隨機旋轉,而網絡的任務則是預測旋轉角度。成功的模型需要捕獲具有語義的圖像特徵,而這樣的特徵也可以將其用於其他視覺任務。

然後,我們將訓練好的網絡一箇中間層的激活模式視爲輸入的新特徵表示,並使用原始數據集的標記部分去訓練一個分類器來識別該輸入的標籤。由於網絡經過預訓練可以從數據(在旋轉預測任務上)中提取出具有語義信息的特徵,因此訓練分類器比從頭開始訓練整個網絡會更快。 最後,我們使用此分類來器標記沒有標籤的數據。

爲了進一步提高模型質量和訓練的穩定性,我們會採用之前介紹的輔助損失以加強判別器網絡學習有意義的特徵表示,這些特徵表示在訓練期間不會被遺忘。這兩項改進與大規模訓練相結合,爲以 FID 爲度量方式的 ImageNet 綜合性任務帶來了最先進的條件 GAN。

論文傳送門:https://arxiv.org/abs/1811.11212

圖注:給定一個潛在向量,生成器網絡就能產生一張圖像。 在每行中,最左側和最右側圖像編碼之間的線性插值導致了圖像空間中的語義插值。

Compare GAN:一個用於訓練和評估GAN的庫

對 GAN 的前沿研究在很大程度上依賴於經過精心設計和良好測試的代碼庫,因爲即使復現其他人的結果和技術也需要花費巨大努力。爲了促進開放科學並讓研究者能從最近的新方法中獲益,我們正在發佈 Compare GAN 庫的重大更新。該庫包括現有 GAN 中常用的損失函數,正則化和規範化模式,神經架構和量化指標等等,現在支持:

在 GPU 和 TPU 上訓練。

通過 Gin 進行輕量級配置。

通過 TensorFlow 數據集庫提供大量數據集。

結論

鑑於標記和未標記數據源之間的差距越來越大,能夠僅從部分標記的數據中學習變得越來越重要。我們已經證明,自監督和半監督之間簡單而有力的結合可以幫助縮小 GAN 在數據源上的差距。我們認爲,自監督是一個強有力的想法,而且應該可以用於其他生成模型的任務。

相關鏈接:

https://ai.googleblog.com/2019/03/reducing-need-for-labeled-data-in.html?m=1

(本文爲 AI科技大本營翻譯文章,轉載請微信聯繫 1092722531)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章