1 背景
自從GAN提出後,其在圖像合成領域一直非常火熱,尤其是基於深度卷積神經網絡的GAN。
對於多分類實驗結果不理想,GAN擅於獲取具有連續幾何結構的模式,比如能精確模擬狗的毛髮而對幾隻分散的腳無法準確判斷。
這可能是由於對卷積的頻繁使用導致的,因爲卷積核受到視野域的影響,空間分離的模式只有在深層網絡中才能挖掘。
增大卷積核可以緩解該問題,但會增大計算量。
注意力機制可以花費少量的計算獲取特徵的權重以克服空間分離的問題。
相關工作證實被很好地約束的生成器能使結果表現更佳。
2 挑戰
- GAN的訓練對超參數的選擇敏感。
- 空間分離問題。
3 創新
- 將注意力機制引入GAN的生成器和判別器,提出Self-Attention-Generative-Adversarial-Networks,SAGAN。
- 將光譜正則化引入GAN的生成器和判別器,以避免異常的梯度出現,穩定訓練過程。
- 對生成器和判別器使用不同的學習率。
4 方法
5 實驗
使用光譜正則化(spectral normalization,SN) 和不平衡學習率(imbalanced learning rate,TTUR)的實驗結果如下所示,可見對訓練的穩定性具有很好的作用。
將注意力模塊和殘差模塊進行對比如下表所示,說明該模塊對性能的提升作用並不是僅僅因爲增加了網絡的深度和複雜度。
將注意力圖進行可視化,發現它對圖片中空間離散的模式挖掘得較好。
下表說明該方法對類別條件圖像生成任務也具有較好的表現。