AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

原創

2018-09-04 09:48

這是CVPR2018一篇關於文本到圖像合成的文章，paper鏈接https://arxiv.org/abs/1711.10485，code已經released出來了https://github.com/taoxugit/AttnGAN，作者的homepage https://sites.google.com/view/taoxu。

文章要做的事情（Text to Image Synthesis）：
輸入：text 　　　　　輸出：image
文章中show出來的example如下所示。

與state-of-the-art方法對比的實驗結果如下所示。

method
文章的framework如下所示。

這篇文章的主要思想是將生成256x256圖像的文圖轉換成先生成64x64，然後再生成128x128，最後再生成256x256的問題（與stackGAN類似，分多步），從低分辨率的圖像生成高分別率圖像的過程中，分別利用低分辨率的圖片信息和word-context產生下一狀態的圖片，爲了在讓最後生成的256x256大小的圖像與文本的語義一致，作者應用了文本圖像檢索的方法將生成的圖像與原始的文本之間度量他們的相似性（分別從word層面和sentence層面）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

image caption研究進展

計算機視覺方向如何寫文章

Text2Colors: Guiding Image Colorization through Text-Driven Palette Generation

計算機視覺中的長尾問題

360圖像拼接

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結