AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

這是CVPR2018一篇關於文本到圖像合成的文章,paper鏈接https://arxiv.org/abs/1711.10485,code已經released出來了https://github.com/taoxugit/AttnGAN,作者的homepage https://sites.google.com/view/taoxu

文章要做的事情(Text to Image Synthesis):
輸入:text      輸出:image
文章中show出來的example如下所示。
example
與state-of-the-art方法對比的實驗結果如下所示。
comparision with SOTA
method
文章的framework如下所示。
framework
這篇文章的主要思想是將生成256x256圖像的文圖轉換成先生成64x64,然後再生成128x128,最後再生成256x256的問題(與stackGAN類似,分多步),從低分辨率的圖像生成高分別率圖像的過程中,分別利用低分辨率的圖片信息和word-context產生下一狀態的圖片,爲了在讓最後生成的256x256大小的圖像與文本的語義一致,作者應用了文本圖像檢索的方法將生成的圖像與原始的文本之間度量他們的相似性(分別從word層面和sentence層面)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章