NVIDIA針對數據不充分數據集進行生成改進,大幅提高CIFAR-10數據生成

©PaperWeekly 原創 · 作者|武廣

學校|合肥工業大學碩士生

研究方向|圖像生成

生成對抗網絡因其優異的生成質量而得到廣泛的關注,然而想要得到高質量的生成結果往往需要大批量的訓練數據進行加持才能訓練出逼真的生成結果,這點在各大主流優秀的生成對抗網絡模型下得到驗證。一旦訓練數據不足的情況下能否得到優秀的結果,能否讓判別器不去過度擬合訓練樣本呢? 

這個問題由來自 NVIDIA 的研究者付諸行動並給出了一定的解決方案,本文將共同來閱讀論文 Training Generative Adversarial Networks with Limited Data

論文引入

龐大的數據集在背後推動着生成模型的發展,然而爲特定應用收集足夠大的圖像集是存在挑戰的,這要求數據要對主題類型,圖像質量,地理位置,時間段,隱私,版權狀態等施加限制,就比如 CelebA 數據集,在人臉位置、質量和圖像的大小都存在着嚴格的要求,這個要求一旦施加在上十萬張圖像數據集下就是很龐大的工作量。

而 GAN 訓練的樣本量往往是在 量級,這對於醫學圖像和小樣本的數據訓練是困難的,往往導致的是判別器過度擬合訓練數據,此時判別器對生成器的反饋就會變得毫無意義,並且導致訓練出現分歧。文章中做了在不同量級下數據集對生成質量的影響,結果如圖 1 所示。

▲圖1.不同量級下數據集對生成質量的影響

圖 1a 顯示了 FFHQ 不同子集的基線結果,在每種情況下,訓練都以相同的方式開始,但是隨着訓練的進行,FID 開始上升。訓練數據越少,越早發生。圖 1b,c 顯示了訓練過程中真實圖像和生成圖像的判別器輸出分佈。

分佈最初是重疊的,但隨着判別器變得越來越有把握,它們會保持漂移,FID 開始惡化的點與分佈之間失去足夠的重疊是一致的。由圖 1c 可以看到,當判別器過分擬合訓練數據時,即使是真實圖像的驗證集也會判別和生成數據分佈一致,這就是判別器過度擬合到了訓練數據上的有力說明。

既然過擬合問題出現了,而且是由於數據集不足導致的,那能不能擴充數據集(旋轉、加噪聲)進行解決呢?

然而擴充數據集往往在訓練分類器這樣的判別語義信息任務是有效的,但是簡單的擴充數據集在 GAN 中將會導致“泄漏”,這主要是由於數據集的擴充會導致 GAN 學習生成擴充的數據分佈。

本文要介紹的論文 Training Generative Adversarial Networks with Limited Data 利用多樣的數據擴充來防止判別器過度擬合的同時確保擴充不會"泄漏"到生成的圖像中。

論文標題:Training Generative Adversarial Networks with Limited Data

論文鏈接:https://arxiv.org/abs/2006.06676

總結一下 ADA 方法在生成模型上的優勢:

  • ADA 可以實現少樣本數據下的較好質量的生成

  • ADA 可以保證數據擴充前提下防治數據的"泄漏"

  • 自適應的判別器增強保證了模型不輕易出現過擬合,模型更加穩定

數據不充分下生成改進

數據不充分的情況下進行數據擴充無疑是最直接了當的解決方式,傳統的 GAN 訓練數據集的任何擴充都將繼承到生成的圖像,這無疑是數據擴充不希望得到的結果,如何解決呢?

2.1 數據擴充

平衡一致性正則化(bCR)提出了應用於同一輸入圖像的兩組擴增應產生相同的輸出,爲判別器損失上添加一致性正則項,也爲真實圖像和生成的圖像實施判別器一致性,而訓練生成器時則不應用增強或一致性損失,這部分直觀的理解如圖 2a 所示。

然而,bCR 中生成器可以自由生成包含擴充的圖像而不會受到任何懲罰,這就導致了“泄漏”的進一步增強,文章在後面實驗部分也驗證了 bCR 確實導致了“泄漏”的發生。

▲ 圖2.bCR與DA下生成模型設計

文章設計了一種新的擴充方式,與 bCR 相似也是對輸入到判別器的圖像應用了增強。但是,該方法並沒有使用單獨的 CR 損失項,而是僅使用增強圖像來評估判別器,並且在訓練生成器時也要這樣做(圖 2b)。

文章稱之爲判別器增強(discriminator augmentation,DA),這種方法看上去非常簡單,甚至你在乍一看都會質疑它是否可以正常工作,是不是會懷疑判別器從未看到訓練圖像的真實外觀的情況下,能否可以正確地指導生成器(圖 2c)。爲此,文章研究了在何種情況下 DA 不會泄漏對所生成圖像的增強。

2.2 設計不會"泄漏"的數據擴充(DA)

[1] 考慮了訓練 GAN 時的類似問題,並表明只要隱含的過程由數據空間上概率分佈的可逆轉換來表示,訓練就隱式地消除了損壞並找到了正確的分佈,稱這種增強算子爲非泄漏。這些可逆變換的功能在於,它們可以通過僅觀察擴充的集合來得出有關基礎集合的相等性或不平等性的結論。

在圖 2b 中,我們可以看到 DA 設計的時候在數據增強上(數據增強這裏可以理解爲數據擴充),做了增強概率 的設計,以 的概率進行數據的增強,此時的數據增強將不是絕對的改變數據(旋轉、翻轉和縮放、色彩增強等)。

這樣生成模型將看到的是更多正常的圖像,然而一些數據增強是不會影響最後的生成結果,例如各向同性圖像縮放,文章也是利用實驗對其它情況進行直觀的解釋,整個過程如圖 3 所示。

▲ 圖3.不同增強下p對“泄漏”的影響

在圖 3 中,通過三個實際示例來驗證我們的分析,上方的圖像代表着對應不同 的時候,模型生成的圖像,這也通過 FID 進行可視化展示。

在 a 中進行各向同性圖像縮放,無論 p 的值如何,其均不會泄漏。但是在圖 3b 中,當 p 太高時,生成器無法知道生成的圖像應面向哪個方向並最終隨機選擇一種可能性。

實際上,由於有限採樣,網絡的有限表示能力,歸納偏差和訓練動態,當 p 保持在 以下時,生成的圖像始終正確定向。在這些區域之間,生成器有時會最初選擇錯誤的方向,然後向正確的分佈部分漂移。

對於一系列連續的色彩增強,也具有相同的觀察結果(圖 3c)。該實驗表明,只要 保持在 0.8 以下,實際上就不太可能發生“泄漏”。

2.3 文章採用的數據擴充方式

文章借鑑了 RandAugment [9] 在圖像分類任務中的成功,考慮了 18 種變換的流水線,這些變換分爲 6 類:像素層(x 翻轉,90° 旋轉,整數平移),更一般的幾何變換,顏色變換,圖像空間濾波,加性噪聲和摳圖。由於在訓練生成器時,也會執行增強,這要求增強是可區分的。

在訓練過程中,使用一組固定的預定義變換來處理圖像給判別器,增強的強度控制在 控制,在 DA 設計上,對於所有轉換,始終使用相同的 p 值。隨機化是針對每個擴展和一個小批量中的每個圖像分別進行,只要 p 保持在實際安全極限以下,就引導發生器僅產生清晰的圖像。

文章通過對不同的擴充類別和數據集大小對 進行詳盡的掃描來研究 DA 的有效性,整個實驗結果如圖 4 所示。

▲ 圖4.不同增強下實驗結果

在許多情況下,DA 可以顯着改善結果,最佳增強強度在很大程度上取決於訓練數據的數量,絕大多數來自像素層和幾何變換上的增強,顏色轉換適度有益,而圖像空間過濾,噪點和裁切並不是特別有用。

曲線還表明,當 時,某些增強會泄漏。對於 10k 的訓練集, 的較高值則會起到不好的結果,而對於 140k,所有增強都是有害的。

根據這些結果,文章最後選擇在模型設計上僅採用像素層,幾何和顏色轉換。圖 4d 顯示,雖然較強的增強會減少過度擬合,但也會減慢收斂速度。

實際上,當固定增強控制 時,對數據集大小的敏感性往往需要進行昂貴的網格搜索,依靠任何固定的 p 可能不是最佳選擇,文章進一步就此問題設計了自適應 來解決這些問題。

2.4 自適應判別器增強(ADA)

文章的設計目的是希望避免手動調整增強強度 ,而是根據過擬合的程度動態控制它。量化過度擬合的標準方法是使用單獨的驗證集(真實圖像數據但是並不在訓練集中),並觀察其相對於訓練集的行爲,這個表示方式已經在圖 1 的 b 和 c 中體現。

當過度擬合開始時,驗證集開始表現得越來越像生成的圖像。這是可量化數據增強的效果,但這也帶來了一問題,就是稍微奢侈了些,尤其是真實樣本已經很少了,還要分出來一部分作爲驗證集。

訓練集 ,驗證集 和生成圖像 表示判別器的輸出,以及它們在 個連續小批處理中的平均值 。在實驗上,使用 ,它對於 Bitchsize 爲 64 時候,也就是處理 個圖像。文章對圖 1 的觀察結果轉換爲兩種可能的過度擬合啓發式公式:

對於這兩種啓發式方法,由上述分析我們已經知道當過度擬合開始時,驗證集開始表現得越來越像生成的圖像,也就是當 表示沒有過度擬合,而當 表示完全過度擬合,文章的目標是調整增強概率 ,以使所選的啓發式方法與合適的目標值匹配。第二個啓發式算法 估計訓練集中獲得正向判別器輸出的部分。

初始化爲零,並根據所選的過擬合試探法( 的值)每四個小批量調整一次其值,如果試探法表明過度擬合或過度擬合過小,通過將 遞增/遞減固定量來應對。

通過對 從 0 到 1 足夠快地上升,但是例如在 500k 圖像(數據量很大),每一步之後, 都被限制爲 0,將這種變化稱爲自適應判別器增強(ADA),文章也進行了實驗比對,結果如圖 5 和圖 6 所示。

▲ 圖5.自適應判別器增強評估實驗

在圖 5a,b 中,可以觀察到 都可以有效防止過度擬合,並且它們都比使用網格搜索找到的最佳固定 改善了結果,文章也確定了在後續實驗中 的初始值設置爲 0.6。圖 5d 顯示了具有自適應 vs 固定 的演變,表明固定 在開始時往往太強,而在結束時往往太弱。

▲ 圖6.ADA驗證實驗

圖 6 使用 ADA 重複了圖 1 的設置,可以看到無論訓練集的大小如何,都可以實現收斂,並且不再發生過度擬合。如果不進行擴充,隨着時間的流逝,生成器從判別器接收到的梯度將變得非常簡單,判別器開始僅關注少數功能,並且生成器可以自由創建其他無意義的圖像。同時使用 ADA 時,梯度場保持更詳細,從而避免情況的惡化。

實驗與評估

文章在 FFHQ 和 LSUN CAT 進行實驗,有趣的是 ADA 和 bCR 的優勢在很大程度上是可加的,圖 7 給出了實驗結果。

▲ 圖7.FHQ和LSUN CAT下進行實驗

爲進一步定量說明,文章和 PA-GAN [2],WGAN-GP [3],zCR [4],auxiliary rotations [5] 和 spectral normalization [6] 進行定量比對,結果如圖 8,不得不說的是 ADA 在 CIFAR-10 數據集下取得了非常好的結果這在之前的生成模型上是看不到的,這個進步是很大的。

▲ 圖8.定量對比實驗

在遷移學習上,ADA 也展示了優越的結果。

▲ 圖9.ADA在遷移學習下的表現

最後放一下在小型數據集 CIFAR-10 數據集下,ADA 模型展示的可怕的生成效果:

▲ 圖10.ADA在CIFAR-10數據集下定性結果

總結

ADA 展示了在訓練數據短缺時,自適應判別器擴充可以穩定且有效的訓練並極大地提高結果質量。但是也要指出擴充數據集並不能替代真實數據,相同數據量下肯定是真實數據越多得到的生成效果越好的。

自適應增強的設計也展示了 NVIDIA 科研上的嚴謹,更值得說的是,NVIDIA 這樣的不太在乎算力資源的研究者能專心在少數據樣本的訓練上展開研究本身就是很值得敬佩的。

參考文獻

[1] A. Bora, E. Price, and A. Dimakis. AmbientGAN: Generative models from lossy measurements. In Proc. ICLR, 2018.

[2] D. Zhang and A. Khoreva. PA-GAN: Improving GAN training by progressive augmentation. In Proc. NeurIPS, 2019.

[3] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville. Improved training of Wasserstein GANs. In Proc. NIPS, pages 5769–5779, 2017.

[4] Z. Zhao, S. Singh, H. Lee, Z. Zhang, A. Odena, and H. Zhang. Improved consistency regularization for GANs. CoRR, abs/2002.04724, 2020.

[5] T. Chen, X. Zhai, M. Ritter, M. Lucic, and N. Houlsby. Self-supervised GANs via auxiliary rotation loss. In Proc. CVPR, 2019.

[6] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida. Spectral normalization for generative adversarial networks. In Proc. ICLR, 2018.

更多閱讀

#投 稿 通 道#

 讓你的論文被更多人看到 

如何才能讓更多的優質內容以更短路徑到達讀者羣體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

???? 來稿標準:

• 稿件確係個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 默認每篇文章都是首發,均會添加“原創”標誌

???? 投稿郵箱:

• 投稿郵箱:[email protected] 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公衆號後臺點擊「交流羣」,小助手將把你帶入 PaperWeekly 的交流羣裏。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章