需要閱讀的論文list

讀了《Unsupervised Person Image Synthesis in Arbitrary Poses》這篇發現還需要補充閱讀的

綠色表示已讀

[1] S. E. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In NIPS, 2016.

pose conditional adversarial networks

如題,主要是在講給GAN網絡一些條件,比如告訴網絡在什麼位置(location)生成什麼內容(text)。文中提出了三個不同條件的網絡,一個是提供文本信息+邊界框座標,轉化爲高階特徵後結合輸入噪聲通過G網絡生成圖像,第二個是提供文本+關鍵點信息,第三個是提供部分條件信息(例如只給出頭部和尾部位置)。

比較值得借鑑的地方在於作者對輸入信息轉化爲高階特徵的處理,文本嵌入和關鍵點編碼爲特徵圖,以文本描述和對象位置爲條件生成目標圖像。

具體分析可參考這篇博客【論文閱讀】Learning What and Where to Draw

[2] J.- Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv preprint arXiv:1703.10593, 2017.

Cycle-GANs

主要思想見下圖:

同樣附一篇詳細分析的博客帶你理解CycleGAN,並用TensorFlow輕鬆實現

看完[2]以後發現需要再補兩篇

[2-1] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017.

[2-2] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In ECCV, pages 694–711. Springer, 2016.

[2-1]是和[2]同一撥人搞的,[2]是unpaired的圖片,而[2-1]是paired的圖片,前者中有對後者的多次引用,嚴格意義上說應該是先有的paired圖片的translation再有的unpaired。[2-1]只用了條件GAN,是pix2pix的做法,[2]中因爲是在兩個domain之間尋找mapping function,所以提出了cycleGAN。

[2-1]提出了cGAN,可以作爲一種通用的圖像轉換方法(image-to-image translation),不必糾結於具體的損失函數的設計,通過判別器判別生成的圖像和GT,相當於自適應的學習了loss function,尤其cGAN還有很好的結構化輸出。另外cGAN的貢獻還在於:generator使用了U-Net的網絡結構,通過跨層(i層和n-i層)之間的連接保持了輸入輸出圖像之間的關聯,discriminator提出了PatchGAN的結構,只懲罰每一個局部patch的fake,有利於高頻信息的提取,結合L1 loss(L1 loss重點關注低頻信息,會造成圖像模糊)取得了最好的結果。

參考博客:經典重溫 Pix2Pix:Image-to-Image Translation with Conditional Adversarial Networks

[2-2]應該是[2]的基礎,看起來這篇文章非常重要,因爲cycleGAN論文中對網絡結構的描述很少,而文中提及他們所用的G網絡就是來源於[2-2]中的網絡結構。這篇文章是李飛飛團隊的成果,已經被引692次,值得一讀。

[3] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In CVPR, 2016. 

loss functions used in image style transfer that aim at producing new images of high perceptual quality

introduced the content-style loss to maintain high perceptual quality in the problem of image style transfer

[4] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super resolution. In ECCV, 2016. 

The generator is implemented as the variation of the network from Johnson et al.[4] proposed by [2] as it achieved  impressive results for the image-to-image translation problem.
 


三篇關於pose keypoints detection的

[5] S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016.

[6] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In CVPR, 2017. 

[7] T. Simon, H. Joo, I. Matthews, Y. Sheikh. Hand Keypoint Detection in Single Images using Multiview Bootstrapping. In CVPR, 2017. 


幾篇關於用GAN做segmentation的

[8] Luc, P., Couprie, C., Chintala, S., Verbeek, J.: Semantic segmentation using adversarial networks. In: NIPS workshop on adversarial training (2016)

第一篇用GAN做分割的論文,把GAN中的G網絡換成一個segmentor,D網絡變形爲raw image和label map雙輸入的網絡,儘可能區分輸入的是segmentor生成的label map還是GT.

[9] Moeskops P, Veta M, Lafarge M W, et al. Adversarial Training and Dilated Convolutions for Brain MRI Segmentation[J]. 2017:56-64.

[10] Zhu W, Xiang X, Tran T D, et al. Adversarial Deep Structural Networks for Mammographic Mass Segmentation[J]. 2017.

上面是兩篇用GAN做醫學影像分割的論文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章