【GAN的魔法】生成對抗網絡技術進展及論文筆記3

前兩部分在這裏:
【GAN的魔法】生成對抗網絡技術進展及論文筆記1
【GAN的魔法】生成對抗網絡技術進展及論文筆記2

5. DCGAN的應用

DCGAN則是將GAN和深度卷積網絡結合起來的應用,這篇文章的提出看似沒有很大創新,但是提出了很多工程經驗分享,以及針對CNN網絡應用於GAN的設計。它的生成模型和判別模型的網絡分別如下圖(a)(b)所示:
這裏寫圖片描述

這篇文章最有意思的部分其實是可視化網絡的部分。比如在學習了一個臥室數據庫後,在輸入空間z(100維)中隨機找9個點進行插值,然後用來生成圖像,得到n幅生成的臥室圖片如下圖所示。可以看到整個圖像空間平滑地進行過渡。第6行從無窗戶到慢慢有窗戶,第10行從電視機到窗戶。
這裏寫圖片描述

與此同時,他們也將Vector Arithmetic運用在了圖像上,發現生成模型的初始輸入z可以通過向量的相加減得到生成圖像的變化。例如,下圖展示了公式“微笑的女人-女人+男人=微笑的男人”和“戴眼鏡的男人-男人+女人=戴眼鏡的女人”在生成樣本上的表現。怎麼做到的!例如眼鏡這個例子,首先在生成的圖像中挑選出3張戴眼鏡的男人、3張男人、3張女人的生成樣本,記錄下其對應的輸入向量,進行平均後相加減後得到了戴眼鏡的女人的一個輸入向量,即可生成戴眼鏡的女人的生成樣本了。
是不是感覺很有意思?課後思考題^^按照上面Vector Arithmetic的理論,那麼戴眼鏡的男人-男人是不是就=眼鏡呢?

這裏寫圖片描述

下面一個例子展示了通過輸入向量的調整使人臉從左側臉轉向右側臉的過程。選取了4張左側臉的生成樣本和4張右側臉的生成樣本,記錄下其對應的輸入向量,做減法計算得“轉向”向量後對輸入向量進行插值,則得到了人臉不斷轉動改變朝向的生成樣本。這說明人臉的姿態在輸入向量中是線性的建模,通過輸入向量的改變可以得到生成樣本的姿態變化。

這裏寫圖片描述


本節參考文獻:《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》

6. GAN和RNN結合的應用

最近還有一篇《Generative Adversarial Text to Image Synthesis》,可以通過GAN與RNN相結合可以實現從文字到圖像的轉化
例如:輸入是“粉色花瓣的花”,輸出就會是一個包含了這些要素的圖像。
這裏寫圖片描述

我們知道GAN有兩個網絡,生成網絡和判別網絡。在文字到圖像轉化的這個應用中,生成網絡首先對文字進行編碼(這是RNN乾的事),然後用這個編碼來幫助生成圖片;而判別網絡則是對圖片和文字的編碼進行對比,輸出是否是真的判斷。
該任務包含兩個部分:1. 利用自然語言處理來理解文本中的描述,這是通過RNN來實現的;2. 生成網絡輸出一個準確、自然的圖像,對文字進行表達,這是通過GAN來實現的。
這裏寫圖片描述

7. Others

最近還有一個特別有意思的基於GAN的從素描到圖像轉化的應用,比如可以從edges生成cats:
這裏寫圖片描述

感興趣的同學可以點這個鏈接進去玩一玩:https://affinelayer.com/pixsrv/
這是一個Berkeley AI的工作,腦洞真大,我還沒來得及看文章,文章在這:《Image-to-Image Translation with Conditional Adversarial Networks》

發佈了53 篇原創文章 · 獲贊 266 · 訪問量 52萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章