史上最佳GAN被超越！生成人臉動物高清大圖真假難辨

原創

wx5c21c2157eb0a

2019-06-06 14:25

　　不得了，以生成逼真假照片出名、被稱作“史上最佳GAN”的BigGAN，被“本家”踢館了。

　　挑戰者同樣來自Google DeepMind，其新鮮出爐的VQ-VAE二代生成模型，生成出的圖像，號稱比BigGAN更加高清逼真，而且更具有多樣性!

　　不服氣?那先看看這些假照片作品。

　　濃眉大眼的棕發妹子，與歪果仁大叔：

　　在Top-1準確率測試上，VQ-VAE二代比BigGAN成績多出了16.09分。

　　DeepMind負責星際項目、也是這項研究的作者之一Oriol Vinyals表示，VQ-VAE二代簡直令人驚訝，如此簡單的想法竟然能夠產生如此好的生成模型!

　　甚至……連曾經也推出過逼真假臉的英偉達員工：英偉達研究院的高級研究科學家Arash Vahdat，也在研究推特下評價：

　　令人印象深刻啊!!!

　　短短幾小時，這項研究在推特上收穫了500多贊，以及上百次轉發。

　　彌補了GAN的缺點

　　VQ-VAE-2可以理解成一個通信系統。

　　其中有編碼器，把觀察到的信息映射到一組離散的潛變量 (Latent Variables) 上。

　　還有×××，把這些離散變量中的信息重構 (Reconstruct) 出來。

　　系統分成兩部分，都是由編碼器和×××構成的。

　　第一部分

　　它是一個分層的VQ-VAE，可以把不同尺度的信息分開處理。

　　比如，輸入一張256×256圖像，編碼器要把它壓縮進不同的潛在空間裏：

　　頂層 (Top Level) 要壓縮成64×64的潛在映射圖，爲**全局信息 (比如形狀等) 生成潛碼;

　　底層 (Bottom Level) 要壓縮成32×32的潛在映射圖，爲局部信息(比如紋理等) 生成潛碼。

　　然後，×××用這兩個潛在映射圖 (Latent Maps) 中，做出一張與原圖同樣大小的重構圖，其中包含了局部和全局信息。

　　團隊發現，如果不用頂層來調節 (Condition) 底層，頂層就需要編碼像素中每一個細節。

　　所以，他們就讓每個層級分別依賴於像素 (Separately Depend on Pixels) ：可以鼓勵AI在每個映射圖中，編碼補充信息 (Complementary Information) ，降低重構誤差。

　　而學到分層潛碼(Hierarchical Latent Codes) 之後，該進入下一部分了：

　　第二部分

　　在從潛碼中學到先驗(Prior) ，生成新圖。

　　這一部分，是二代與一代最大的區別所在：把一代用到的自迴歸先驗 (Autoregressive Priors) 擴展、增強了。

　　用當前最優秀的PixelRNN模型來爲先驗建模，這是一個帶自注意力機制的自迴歸模型，能夠把先驗分佈 (Prior Distribution) ，和上一部分學到的邊界後驗 (Marginal Posterior) 匹配起來。瀋陽治療外陰白斑中醫院:http://mobile.lvprco.com/

　　這樣，可以生成比從前相干性更高，保真度也更高的圖像。

　　和第一部分相似：這裏也有編碼器和×××，可以進一步壓縮圖像。

　　做好之後，從先驗裏取樣，可以生成新的圖像：和原圖清晰度一致，並且保持了相關性 (Coherence) 。

　　兩個部分合在一起，可以把256×256的圖像，壓縮200倍來學習;把1024×1024的高清大圖，壓縮50倍來學習。

　　團隊說這樣一來，把圖像生成速度提升了一個數量級。

　　在需要快速編碼、快速解碼的應用上，這樣的方法便有了得天獨厚的優勢。

　　同時，還避免了GAN的兩個著名缺點：

　　一是mode collapse，即生成某些圖像之後，GAN的生成器和判別器就達成和解，不再繼續學習了;二是多樣性不足的問題。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

史上最佳GAN被超越！生成人臉動物高清大圖真假難辨

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

史上最佳GAN被超越！生成人臉動物高清大圖真假難辨

人工智能影響未來娛樂的幾種方式

北斗再迎新催化：導航精度從米級跨越至釐米級

算法社會的恐懼之源

微軟新開發一種基於AI的文本轉語音技術，越來越逼近人類音色

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結