不得了,以生成逼真假照片出名、被稱作“史上最佳GAN”的BigGAN,被“本家”踢館了。
挑戰者同樣來自Google DeepMind,其新鮮出爐的VQ-VAE二代生成模型,生成出的圖像,號稱比BigGAN更加高清逼真,而且更具有多樣性!
不服氣?那先看看這些假照片作品。
濃眉大眼的棕發妹子,與歪果仁大叔:
在Top-1準確率測試上,VQ-VAE二代比BigGAN成績多出了16.09分。
DeepMind負責星際項目、也是這項研究的作者之一Oriol Vinyals表示,VQ-VAE二代簡直令人驚訝,如此簡單的想法竟然能夠產生如此好的生成模型!
甚至……連曾經也推出過逼真假臉的英偉達員工:英偉達研究院的高級研究科學家Arash Vahdat,也在研究推特下評價:
令人印象深刻啊!!!
短短幾小時,這項研究在推特上收穫了500多贊,以及上百次轉發。
彌補了GAN的缺點
VQ-VAE-2可以理解成一個通信系統。
其中有編碼器,把觀察到的信息映射到一組離散的潛變量 (Latent Variables) 上。
還有×××,把這些離散變量中的信息重構 (Reconstruct) 出來。
系統分成兩部分,都是由編碼器和×××構成的。
第一部分
它是一個分層的VQ-VAE,可以把不同尺度的信息分開處理。
比如,輸入一張256×256圖像,編碼器要把它壓縮進不同的潛在空間裏:
頂層 (Top Level) 要壓縮成64×64的潛在映射圖,爲**全局信息 (比如形狀等) 生成潛碼;
底層 (Bottom Level) 要壓縮成32×32的潛在映射圖,爲局部信息(比如紋理等) 生成潛碼。
然後,×××用這兩個潛在映射圖 (Latent Maps) 中,做出一張與原圖同樣大小的重構圖,其中包含了局部和全局信息。
團隊發現,如果不用頂層來調節 (Condition) 底層,頂層就需要編碼像素中每一個細節。
所以,他們就讓每個層級分別依賴於像素 (Separately Depend on Pixels) :可以鼓勵AI在每個映射圖中,編碼補充信息 (Complementary Information) ,降低重構誤差。
而學到分層潛碼(Hierarchical Latent Codes) 之後,該進入下一部分了:
第二部分
在從潛碼中學到先驗(Prior) ,生成新圖。
這一部分,是二代與一代最大的區別所在:把一代用到的自迴歸先驗 (Autoregressive Priors) 擴展、增強了。
用當前最優秀的PixelRNN模型來爲先驗建模,這是一個帶自注意力機制的自迴歸模型,能夠把先驗分佈 (Prior Distribution) ,和上一部分學到的邊界後驗 (Marginal Posterior) 匹配起來。瀋陽治療外陰白斑中醫院:http://mobile.lvprco.com/
這樣,可以生成比從前相干性更高,保真度也更高的圖像。
和第一部分相似:這裏也有編碼器和×××,可以進一步壓縮圖像。
做好之後,從先驗裏取樣,可以生成新的圖像:和原圖清晰度一致,並且保持了相關性 (Coherence) 。
兩個部分合在一起,可以把256×256的圖像,壓縮200倍來學習;把1024×1024的高清大圖,壓縮50倍來學習。
團隊說這樣一來,把圖像生成速度提升了一個數量級。
在需要快速編碼、快速解碼的應用上,這樣的方法便有了得天獨厚的優勢。
同時,還避免了GAN的兩個著名缺點:
一是mode collapse,即生成某些圖像之後,GAN的生成器和判別器就達成和解,不再繼續學習了;二是多樣性不足的問題。