史上最佳GAN被超越!生成人臉動物高清大圖真假難辨

  不得了,以生成逼真假照片出名、被稱作“史上最佳GAN”的BigGAN,被“本家”踢館了。

  挑戰者同樣來自Google DeepMind,其新鮮出爐的VQ-VAE二代生成模型,生成出的圖像,號稱比BigGAN更加高清逼真,而且更具有多樣性!

  不服氣?那先看看這些假照片作品。

  濃眉大眼的棕發妹子,與歪果仁大叔:

  


  在Top-1準確率測試上,VQ-VAE二代比BigGAN成績多出了16.09分。

  DeepMind負責星際項目、也是這項研究的作者之一Oriol Vinyals表示,VQ-VAE二代簡直令人驚訝,如此簡單的想法竟然能夠產生如此好的生成模型!

  甚至……連曾經也推出過逼真假臉的英偉達員工:英偉達研究院的高級研究科學家Arash Vahdat,也在研究推特下評價:

  令人印象深刻啊!!!

  短短幾小時,這項研究在推特上收穫了500多贊,以及上百次轉發。

  彌補了GAN的缺點

  VQ-VAE-2可以理解成一個通信系統。

  其中有編碼器,把觀察到的信息映射到一組離散的潛變量 (Latent Variables) 上。

  還有×××,把這些離散變量中的信息重構 (Reconstruct) 出來。

  系統分成兩部分,都是由編碼器和×××構成的。

  第一部分

  它是一個分層的VQ-VAE,可以把不同尺度的信息分開處理。

  比如,輸入一張256×256圖像,編碼器要把它壓縮進不同的潛在空間裏:

  頂層 (Top Level) 要壓縮成64×64的潛在映射圖,爲**全局信息 (比如形狀等) 生成潛碼;

  底層 (Bottom Level) 要壓縮成32×32的潛在映射圖,爲局部信息(比如紋理等) 生成潛碼。

  然後,×××用這兩個潛在映射圖 (Latent Maps) 中,做出一張與原圖同樣大小的重構圖,其中包含了局部和全局信息。

  團隊發現,如果不用頂層來調節 (Condition) 底層,頂層就需要編碼像素中每一個細節。

  所以,他們就讓每個層級分別依賴於像素 (Separately Depend on Pixels) :可以鼓勵AI在每個映射圖中,編碼補充信息 (Complementary Information) ,降低重構誤差。

  而學到分層潛碼(Hierarchical Latent Codes) 之後,該進入下一部分了:

  第二部分

  在從潛碼中學到先驗(Prior) ,生成新圖。

  這一部分,是二代與一代最大的區別所在:把一代用到的自迴歸先驗 (Autoregressive Priors) 擴展、增強了。

  用當前最優秀的PixelRNN模型來爲先驗建模,這是一個帶自注意力機制的自迴歸模型,能夠把先驗分佈 (Prior Distribution) ,和上一部分學到的邊界後驗 (Marginal Posterior) 匹配起來。瀋陽治療外陰白斑中醫院:http://mobile.lvprco.com/

  這樣,可以生成比從前相干性更高,保真度也更高的圖像。

  和第一部分相似:這裏也有編碼器和×××,可以進一步壓縮圖像。

  做好之後,從先驗裏取樣,可以生成新的圖像:和原圖清晰度一致,並且保持了相關性 (Coherence) 。

  兩個部分合在一起,可以把256×256的圖像,壓縮200倍來學習;把1024×1024的高清大圖,壓縮50倍來學習。

  團隊說這樣一來,把圖像生成速度提升了一個數量級。

  在需要快速編碼、快速解碼的應用上,這樣的方法便有了得天獨厚的優勢。

  同時,還避免了GAN的兩個著名缺點:

  一是mode collapse,即生成某些圖像之後,GAN的生成器和判別器就達成和解,不再繼續學習了;二是多樣性不足的問題。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章