論文閱讀練習（9）

《Improved Training of Wasserstein GANs》（2017）

作者：

摘要

生成對抗模型是一個很強的生成模型，但是訓練不穩定。最新提出的沃恩斯坦GAN（Wasserstein GAN）提高了GAN的穩定訓練，但是有時候仍會出現差的例子或發散。發現這些問題通常由於在WGAN中權重衰減的使用在判別器上加強了李普希茲約束（Lipschitz constraint），導致不理想的表現。此篇文章中提出了一個權重衰減的替代選擇：懲罰判別器關於它的輸入的梯度模。這個方法在標準WGAN上表現更好，並且能在不同的幾乎沒有超參微調的GAN結構上穩定訓練，包括101-ResNet和帶有連續生成器的語言模型。同時提高了CIFAR-10和LSUN bedrooms的生成質量。

問題：GAN訓練不穩定，產生差的結果或者發散，原因是權重衰減在判別器上加強了李普希茲約束。

補充：原WGAN——利用Wasserstein距離產生一個價值函數，其理論性質好於原始GAN.

方法：We propose an alternative to clipping weights: penalize the norm of gradient of the critic with respect to its input。

衰減權重的替代：懲罰判別器關於其輸入的梯度模。WGAN-GP（梯度懲罰WGAN）。要求判別器必須位於1-Lipschitz函數空間內，作者通過權重衰減強制實現。

效果：在標準WGAN上表現更好，並且能在不同的幾乎沒有超參微調的GAN結構上穩定訓練，包括101-ResNet和帶有連續生成器的語言模型。同時提高了CIFAR-10和LSUN bedrooms的生成質量。

加入梯度懲罰的判別器loss:

《Global Context for Convolutional Pose Machines》（CVPR2019)

作者：

摘要

卷積pose機制對於鉸接式pose估計是一個受歡迎的神經網絡結構。此篇文章中，通過探索經驗感受野發現它可以通過整合全局信息加強。提出類似U形狀的全局信息模塊，並且與語義分割領域的金字塔pooling、空洞金字塔空間pooling模塊比較。提出的網絡在數據集Look Into Person上單人pose估計的PCKh=87.9%。此網絡的小版本fps=160，且只有2.9%的錯誤。在MPII上做網絡的泛化測試，達到同樣精度但運行更快。

code：https://github.com/opencv/openvino_training_extensions/tree/develop/pytorch_toolkit/human_pose_estimation

問題：針對鉸接式pose估計問題

方法：整合全局信息加強感受野。提出一個全局信息模塊。