卷積神經網絡圖像風格轉移 Image StyleTransfer Using Convolutional Neural Networks


卷積神經網絡圖像風格轉移

Image StyleTransfer Using Convolutional Neural Networks

Taylor Guo, 2017年4月24日 星期一

 

摘要

用不同的風格渲染圖像的語義內容是一種比較難的圖像處理任務。可以說,之前方法的一個主要侷限因素是缺乏明確表示語義信息的圖像表示,用於將圖像內容從風格中分離。這裏用卷積神經網絡的圖像表示用於物體識別的優化,可以使圖像信息更明顯。我們介紹了一種藝術風格的神經網絡算法可以將圖像的內容和圖像的自然風格分離和再合併。算法可以提供給人們可以感知到的高質量的新圖像,可以將大量衆所周知的藝術作品和任意圖像結合起來。實驗結果提供了卷積神經網絡學習的深度學習圖像表示,展示了高層圖像語義合成和操作的能力。

 

1  簡介

將一幅圖像的風格轉移到另外一幅圖像上被認爲是一個圖像紋理轉移問題。在圖像紋理轉移中,目標是從一幅源圖像中合成紋理,源圖像提供了要合成的問題但需要保留目標圖像的語義內容。對於紋理合成,有大量強有力的非參數方法,可以通過重新採樣給定源紋理圖像的像素來合成圖像寫實自然紋理。之前的大多數紋理轉移算法都是採用非參數方法用於紋理合成,沒有用其他不同方法保留目標圖像的結構。例如,Efros和Freeman引入了一個對應地圖,包括了目標圖像的特徵,比如圖像亮度,來約束紋理合成過程。Hertzman用圖像模擬從風格圖像中將紋理轉移到目標圖像中。Ashikhmin專注轉移高頻紋理信息,只保留目標圖像的粗糙尺度。Lee在紋理轉移過程中添加邊緣方向信息來增強算法。

儘管這些算法取得了顯著的效果,但都受限於同一個基本問題:它們只使用了目標圖像的低層圖像特徵在紋理轉移中。理想情況下,一個風格轉移算法應該能夠從目標圖像中提取圖像語義內容(比如,目標和一般場景),通知紋理轉移流程根據源圖像風格渲染目標圖像的語義內容。因此,一個先決條件是要找到圖像表示,可以獨立對圖像語義內容和風格構建模型變量。這樣處理的表示方法之前只能是採用自然圖像的控制子集來達到,比如不同光照條件的人臉,和不同字體的特徵,或者手寫數字和門牌號。

但一個通用性的方法將圖像的內容從風格中分離開仍然是一個非常困難的問題。然而,最近出現的深度卷積神經網絡可以產生強大的計算機視覺系統,可以從圖像中學習提取高層語義信息。採用充足標註的數據訓練的卷積神經網絡在特定任務中,比如物體識別,在一般的特徵表示中學習提取高層圖像內容,可以在數據集上泛化,甚至也可以應用於其他視覺信息處理任務,包括紋理識別和藝術風格分類。

在這個工作中,我們展示了高性能卷積神經網絡如何學習一般的特徵表示,用於獨立處理和操作圖像的內容和風格。我們介紹了藝術風格神經網絡算法,一種執行圖像風格轉移的新算法。思路上,它就是最新的卷積神經網絡的特徵表示的紋理合成約束下的紋理轉移算法。紋理模型基於深度學習圖像表示,風格轉移方法巧妙地將優化問題減少到一個神經網絡中。通過執行圖像搜索匹配樣本圖像的特徵表示來生成新圖像。再紋理合成之前執行這個方法,增強對深度學習圖像表示的理解。事實上,風格轉移算法合併了基於圖像表示翻轉的卷積神經網絡的參數紋理模型。

 

2  深度學習圖像表示

以下展示的結果是基於論文28的VGG網絡生成的,用於訓練執行物體識別和定位,更多細節如論文所示。使用標準的19層VGG網絡包含16個卷積層和5個池化層提供的特徵空間。按比例改變權重規範化網絡,這樣每層卷積濾波器在圖像和位置上平均激活值就等於1。這種針對VGG網絡的按比例縮放不會改變它的輸出,因爲它只包含修正線性激活函數,在特徵地圖上沒有歸一化層和池化層。我們也不使用任何全連接層。模型是公開的,可以在caffe架構中找到。對於圖像合成,我們發現用平均池化取代最大池化操作,生成的結果更好,這就是圖像使用平均池化層來生成。

2.1  內容表示

通常網絡中每層定義了一個非線性濾波,它的複雜度隨着每層在網絡中的位置而增加。給定一個圖像,卷積神經網絡每層使用濾波對圖像進行編碼。Nl寬的濾波器的一個層大小爲Ml的每個有Nl個特徵地圖,其中Ml是特徵地圖的高乘以寬。所以,l層的響應可以存儲在一個矩陣中,其中是l層的位置j上的第i個濾波器的激活值。
爲了將圖像信息可視化在層級結構的不同層上進行編碼,可以在一個帶有白噪聲的圖像上執行梯度下降算法尋找可以匹配原始圖像特徵響應的另外一個圖像(參考圖1的內容重建),如論文24所述。令分別爲原始圖像和生成的圖像,分別是l層的特徵表示。那麼,就可以定義兩類特徵表示之間的誤差平方損失函數爲:

損失函數的偏導數對應的l層的激活函數爲:

圖像的梯度可以用標準誤差反饋傳播計算(如圖2右側)。因此,我們可以改變初始隨機圖像直到卷積神經網絡的某一層可以生成與原始圖像相同的響應。


圖1. 卷積神經網絡中的圖像表示。在卷積神經網絡的每個處理階段,一個給定的輸入圖像表示爲濾波過的圖像。濾波器的數量沿着處理的層級增加,濾波後的圖像用某種降採樣機制減少(比如,最大池化),可以減少網絡中每層的總數量。內容表示:可以從特定的一個網絡層上,在只知道網絡響應的情況下重建輸入圖像,就能夠在卷積神經網絡的不同處理階段將信息可視化。在原來的VGG網絡中的‘conv1 2’ (a), ‘conv2 2’ (b), ‘conv32’ (c), ‘conv4 2’ (d) ‘conv5 2’ (e) 重建輸入圖像。可以發現從網絡中的低層重建接近完美(a-c)。在網絡的高層,細節像素信息會丟失,但高層的圖像內容會被保留下來(d,e)。風格表示:在卷積神經網絡頂層激活時,使用一個特徵空間獲取輸入圖像的紋理信息。風格表示計算了卷積神經網絡不同層不同特徵間的關係。從卷積神經網絡層(‘conv1 1’ (a), ‘conv1 1’ 和‘conv2 1’(b),‘conv1 1’, ‘conv2 1’ and ‘conv3 1’ (c), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’ and‘conv4 1’ (d), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’and ‘conv5 1’ (e))的不同子集上構建的風格表示重建輸入圖像的風格。這樣創建的圖像在一個逐步增加的規模上會匹配給定圖像的風格,同時會丟掉場景全局結構信息。




卷積神經網絡在物體識別上訓練,它們可以生成一個對圖像的表示,在網絡層級的處理過程中使得物體信息越來越明顯,如論文10所示。因此,沿着網絡層級處理過程,輸入圖像會發生轉變,對圖像的真正內容越來越敏感,但會對精細的外觀變得相對不變。網絡的高層會捕捉輸入圖像的高階內容,比如物體和結構,但不會限制重構過程中的確切像素值(如圖1中,內容重建 d,e)。相反,低層重建只是簡單地複製原始圖像中的確定的像素值(如圖1,內容重建 a-c)。我們將網絡中高層的特徵響應結果作爲內容表示

2.2  風格表示

爲了獲得輸入圖像的風格表示,用特徵空間獲得紋理信息,如論文10所示。這個特徵空間可以從網絡的任意層中的濾波器響應結果上構建。它由不同濾波器響應結果的相關關係組成,其中期望值從特徵地圖空間上取值。特徵關係用克萊姆矩陣表示,其中是l層的向量化特徵地圖i和j之間的內積:


包含了多個網絡層的特徵相關關係,可以得到一個確定的,多尺度的輸入圖像的表示,可以獲得紋理信息,但沒有全局結構信息。同樣的,可以匹配給定輸入圖像的風格表示構建一個圖像,可視化在網絡不同層構建風格的特徵空間上捕捉的信息,(如圖1,風格重建)。在白噪聲圖像上使用梯度下降算法最小化原始圖像的克萊姆矩陣和生成圖像的克萊姆矩陣的平均平方距離來實現。

分別表示原始圖像和生成圖像,分別表示l層的風格表示。l層相對於總損失的貢獻是: 

總的風格損失函數:


其中wl是每層對總損失函數的貢獻權重因子(如下面結果中特定wl的值)。l層的激活函數對應的El的偏導數計算如下:



El對像素值的梯度可以用標準誤差反向傳播快速計算出來,(如圖2 左邊所示)。

2.3  風格轉移

爲了將藝術照的風格轉移到照片上,我們同步匹配的內容表示和的風格表示,合成一個新圖像,如圖2所示。 因此,可以聯立從卷積神經網絡的一層的圖像內容表示和大量層上定義的繪畫風格表示的白噪聲圖像的特徵表示求解最小化距離。需要最小化的損失函數是:

其中α和β分別是內容和風格重建的權重因子。對像素值的梯度可以作爲某些優化策略的輸入值。這裏使用論文32中的L-BFGS,可以非常好的應用於圖像合成中。爲了提取圖像信息,在計算特徵表示之前,需要經常改變風格圖像大小與內容圖像大小一樣。最後,注意與論文24不同,我們並不用圖像信息來規範化合成結果。可以討論一下,從網絡中低層提取的紋理特徵可以作爲風格圖像的特定圖像先驗信息。另外,使用不同的網絡架構和優化算法,在圖像合成上也會有不同結果。


3  結果

本文主要的發現是卷積神經網絡中的內容表示和風格表示可以很好地分離。也就是說,可以獨立地操作兩種表示生產有意義的新圖像。爲了演示這個發現,我們從兩個不同的源圖像中生成混合內容表示和風格表示的圖像。具體來說,我們匹配了德國圖賓根內卡河的照片的內容表示和幾種出名的不同時期的藝術畫的風格表示,如圖3所示。圖3所示的圖像通過匹配網絡層‘conv42’的內容表示和網絡層 ‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’and ‘conv5 1’(這些層中wl = 1/5, 其他層中 wl = 0 )的風格表示合成圖像。α/β的比值分別是1 × 10−3 (Fig 3 B), 8 × 10−4 (Fig 3 C), 5 × 10−3(Fig 3 D), 或者 5 × 10−4 (Fig 3 E, F)。


圖3:合併照片內容和幾種出名的藝術照生成的照片。同時匹配照片內容表示和藝術繪畫的風格表示生成圖像。A圖是德國圖賓根內卡河照片。左下角面板裏面提供了生成圖像的風格的繪畫。B是1805年英國畫家約瑟夫·瑪羅德·威廉·特納的《運輸船遇難》。C是1889年文森特·梵高《星月夜The Starry Night》。D是1893年愛德華·蒙克《尖叫》。E是1910年巴勃羅·畢加索Femme nue assise 。F是1913年瓦西里·康定斯基CompositionVII。


3.1  內容和風格之間的取捨

當然,圖像內容和風格不可能完全解綁。用另外一個圖像風格合併一個圖像的內容生成新圖像時,通常不存在一個圖像可以同時完全匹配兩種約束。然而,既然在合成圖像中,最小化的損失函數是內容和風格損失函數的線性組合,可以平滑地規範化強調內容重建或風格重建,如圖4所示。強烈強調風格會導致圖像匹配藝術品的外觀,有效地提供了一個紋理版本的圖像,但幾乎沒有圖像的內容(α/β = 1 × 10−4,如圖4,左上)。當強調內容時,可以清晰地識別照片,但繪畫的風格無法很好地匹配(α/β = 1 × 10−1,如圖4,右下)。對特定的內容圖像和風格圖像,可以調整內容和風格之間的取捨來創造令人滿意的視覺效果的圖像。


圖4:匹配源圖像的內容和風格的相對權重。內容和風格比值α/β從左上到右下依次增加。特別強調風格會生成風格圖像的紋理版本(左上)。特別強調內容會生成有很少風格的圖像(右下)。實際上,可以在兩個極值間平滑插值。

3.2  卷積神經網絡不同層的效果

圖像合成過程中另外一個重要的因素是選擇匹配內容和風格表示的網絡層。如上所示,風格表示是一個多尺度表示,包含了神經網絡中的多層。這些層的數量和位置決定了風格匹配的局部尺度,產生不同視覺體驗(如圖1中的風格重建)。我們發現將風格表示匹配到網絡的高層在一個增大的尺度上可以保留局部圖像結構,生成更平滑、更連續的視覺體驗。因此,大部分視覺上令人滿意的圖像通常是將風格表示匹配到網絡高層創建的,這就是爲什麼我們生成的圖像會在網絡層‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’ 和‘conv5 1’匹配風格特徵。

爲了分析不同層匹配內容特徵的效果,我們在相同藝術圖片和參數配置(α/β = 1 × 10−3)情況下對照片風格化,展示了風格轉移的結果,但是一個是在conv2_2層上匹配內容特徵,在另外一個的conv4_2層上,如圖5所示。當在網絡的低層上匹配內容,算法會匹配照片上的大部分像素細節信息,生成的圖像似乎藝術圖的紋理幾乎不融合進照片中(如圖5中間部分)。相反,在網絡高層上匹配內容特徵,照片的像素細節信息沒有很強的約束,藝術畫的紋理和照片的內容恰當地融合在一起(如圖5下面)。也就是說,圖像中明確的結構,比如邊緣和顏色地圖會被改變,使用藝術畫的風格和照片的內容,如圖5下面所示。


圖5:網絡不同層匹配內容表示的效果。匹配conv2_2的內容保留了原始照片更多的清楚的結構,生成的圖像看上去繪畫的紋理簡單和融合到照片中(圖中間所示)。匹配conv4_2層的內容時,繪畫的紋理和照片的內容就合併起來,照片的內容就顯示出繪畫的風格(圖中下面所示)。兩幅圖是用相同的參數(α/β = 1 × 10−3)生成的。繪畫作爲風格圖像,如左下角所示,1915年萊昂內爾·法寧格的Jesuiten III。

 

3.3  梯度下降初始化

這些圖像初始化都帶有白噪聲。然而,初始化圖像時也可以將內容圖像和風格圖像合成起來。我們也探索了這兩種方案(圖6A,B):儘管他們對最終圖像與初始化時圖像在空間結構上有偏向,不同的初始化方法看起來對最後的合成圖像的結果並沒有很大影響。可以注意到的是帶噪聲的初始化可以生成任意數量的新圖像(圖6 C)。帶固定圖像的初始化完全生產相同的結果(取決於梯度下降過程的隨機性)。

圖6:梯度下降的初始化。A從內容圖像初始化。B從風格圖像初始化。C 4個樣本從不同的白噪聲圖像初始哈。對所有圖像α/β = 1 × 10−3

 

3.4  寫實風格轉移

到目前爲止,本文主要關注藝術風格轉移。通常,算法可以在任意兩張圖像上轉移風格。比如,我們可以轉移紐約夜晚的風格到倫敦白天的圖像上去(圖7)。儘管照片的真實度無法彎曲保留,合成的圖像非常像風格圖像的顏色和光照,顯示出倫敦夜晚的照片。

圖7. 真實性圖像風格轉移。從紐約夜晚的照片風格轉移到倫敦白天的照片上。圖像合成用內容圖像初始化,α/β = 1 × 10−2

 

4  討論

本文演示瞭如何在高性能的卷積神經網絡上用特徵表示在任意兩個圖像上轉移圖像風格。我們可以顯示出高感知質量,算法上仍然有一些技術限制。

可能最大的限制是合成的圖像的分辨率。優化問題的維度和卷積神經網絡中的單元數量都是隨着像素數量線性增長的。合成過程的速度嚴重依賴於圖像分辨率。本文中展示的合成照片的分辨率是512×512像素,合成過程在nvidiaK40 GPU上大概1個小時(取決於確切圖像大小和梯度下降的停止標準)。這樣的性能目前可以在線演示,也可以交互應用,未來深度學習算法的增強都將增加這個方法的性能。

另外一個問題是合成的圖像有時會有一些低層噪音。這個問題在藝術風格轉移中比較少,當內容圖像和風格圖像是照片或者生成寫實圖像受到影響的時候,更加明顯。然而,噪聲非常有特點,比較像網絡中的單元的濾波器。因此,可以構建有效的去噪方法在優化過程結束後對圖像進行後處理。

圖像的藝術風格處理是計算機圖形學的非寫實渲染的傳統研究問題。與紋理轉移工作不同,傳統的方法是用特別的算法在一個給定的風格上渲染源圖像。最近的綜述可以參考論文21。

從風格中分離圖像內容在一個定義好的問題上不是必要的。這主要是因爲究竟圖像風格是什麼無法清晰定義。它可能是繪畫上筆刷的粗細,色彩地圖,某種形式和形狀,但也有可能是場景的組成,圖像的主題,甚至可能是他們的混合,或許更多。因此,通常圖像內容和風格不可能完全清晰地分離,如果可以,又怎麼分離呢?比如,如果沒有像星星一樣的圖像結構,就不可能將一副圖像渲染成梵高的星月夜。在實際工作中,如果圖像看起來像某種風格但圖像內容中的物體和場景不同,我們認爲風格轉移也是成功的。我們完全認識到這種評判標準,在數學上不精確,也不具有通用型。

然而,我們發現一個令人激動的現象,神經系統訓練執行生物視覺的一個核心計算任務,可以自動地學習圖像表示,至少在某種程度上可以將圖像內容從風格上分離。一個可能的解釋是當學習物體識別時,網絡變得對圖像變化具有不變性,保留了物體辨別力。圖像內容和外觀變化這一任務具有非常強的實踐性。優化的人工神經網絡和生物視覺有非常驚人的相似之處,因此可以觀察人類從風格中提取內容的能力,創造和享受藝術,可能對我們的視覺系統的推理能力非常重要。 

Taylor Guo @Shanghai - 2017年4月29日-15:30

參考文獻

[1] N. Ashikhmin. Fast texture transfer. IEEE Computer Graphics and Applications,23(4):38–43, July 2003. 1

[2] M. Berning, K. M. Boergens, and M. Helmstaedter.SegEM: Efficient Image Analysis for High-Resolution Connectomics. Neuron,87(6):1193–1206, Sept. 2015. 2

[3] C. F. Cadieu, H. Hong, D. L. K. Yamins, N. Pinto,D. Ardila, E. A. Solomon, N. J. Majaj, and J. J. DiCarlo. Deep Neural NetworksRival the Representation of Primate IT Cortex for Core Visual ObjectRecognition. PLoS Comput Biol, 10(12):e1003963, Dec. 2014. 8

[4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy,and A. L. Yuille.SemanticImage Segmentation with Deep Convolutional Nets and Fully Connected CRFs. arXiv:1412.7062 [cs], Dec. 2014. arXiv: 1412.7062. 2

[5] M. Cimpoi, S. Maji, and A. Vedaldi. Deep filter banks for texture recognition andsegmentation.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pages 3828–3836, 2015. 2

[6] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N.Zhang, E. Tzeng, and T. Darrell.DeCAF:A Deep Convolutional Activation Feature for Generic Visual Recognition. arXiv:1310.1531 [cs], Oct. 2013. arXiv: 1310.1531. 2

[7] A. Efros and T. K. Leung. Texture synthesis by nonparametric sampling. In Computer Vision, 1999. The Proceedings of theSeventh IEEE International Conference on, volume 2, pages 1033–1038. IEEE,1999. 1

[8] A. A. Efros and W. T. Freeman. Image quilting for texture synthesis and transfer. In Proceedings of the 28th annual conference onComputer graphics and interactive techniques, pages 341–346. ACM, 2001. 1

[9] D. Eigen and R. Fergus. Predicting Depth, SurfaceNormals and Semantic Labels With a Common Multi-Scale Convolutional Architecture.pages 2650–2658, 2015. 2

[10] L. A. Gatys, A. S. Ecker, and M. Bethge. Texture Synthesis Using Convolutional Neural Networks. In Advances in Neural Information Processing Systems28, 2015. 3, 4

[11] U. G¨uc¸l ¨u and M. A. J. v. Gerven. Deep NeuralNetworks Reveal a Gradient in the Complexity of Neural Representations acrossthe Ventral Stream. The Journal of Neuro-science, 35(27):10005–10014, July2015. 8

[12] D. J. Heeger and J. R. Bergen. Pyramid-based Texture Analysis/Synthesis. In Proceedings of the 22Nd Annual Conference onComputer Graphics and Interactive Techniques, SIGGRAPH ’95, pages 229–238, New York,NY, USA, 1995. ACM. 3

[13] A. Hertzmann, C. E. Jacobs, N. Oliver, B.Curless, and D. H. Salesin.Image analogies. In Proceedings of the 28th annual conference onComputer graphics and interactive techniques, pages 327–340. ACM, 2001. 1

[14] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J.Long, R. Girshick, S. Guadarrama, and T. Darrell.Caffe:Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conferenceon Multimedia, pages 675–678. ACM, 2014. 3

[15] S. Karayev, M. Trentacoste, H. Han, A. Agarwala,T. Darrell, A. Hertzmann, and H. Winnemoeller.Recognizing image style. arXiv preprint arXiv:1311.3715, 2013. 2

[16] S.-M. Khaligh-Razavi and N. Kriegeskorte. DeepSupervised, but Not Unsupervised, Models May Explain IT Cortical Representation.PLoS Comput Biol, 10(11):e1003915, Nov. 2014. 8

[17] D. P. Kingma, S. Mohamed, D. Jimenez Rezende, andM. Welling. Semi-supervised Learning with Deep Generative Models. In Z.Ghahramani, M.Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger,editors, Advances in Neural Information Processing Systems 27, pages 3581–3589.Curran Associates, Inc., 2014. 2

[18] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neuralnetworks. In Advancesin neural information processing systems, pages 1097–1105, 2012. 2

[19] M. K¨ummerer, L. Theis, and M. Bethge. Deep GazeI: Boosting Saliency Prediction with Feature Maps Trained on ImageNet. In ICLRWorkshop, 2015. 2, 8

[20] V. Kwatra, A. Sch¨odl, I. Essa, G. Turk, and A.Bobick. Graphcut textures: image and video synthesis usinggraph cuts.In ACM Transactions on Graphics (ToG), volume 22, pages 277–286. ACM, 2003. 1

[21] J. E. Kyprianidis, J. Collomosse, T. Wang, and T.Isenberg. Stateof the ”Art”: A Taxonomy of Artistic Stylization Techniques for Images andVideo. Visualizationand Computer Graphics, IEEE Transactions on, 19(5):866–885, 2013. 8

[22] H. Lee, S. Seo, S. Ryoo, and K. Yoon. DirectionalTexture Transfer. In Proceedings of the 8th International Symposium onNon-Photorealistic Animation and Rendering, NPAR ’10, pages 43–48, New York,NY, USA, 2010. ACM. 1

[23] J. Long, E. Shelhamer, and T. Darrell. Fully Convolutional Networks for SemanticSegmentation. pages3431–3440, 2015. 2

[24] A. Mahendran and A. Vedaldi. Understanding Deep Image Representations by Inverting Them. arXiv:1412.0035 [cs], Nov. 2014. arXiv: 1412.0035.3, 6

[25] J. Portilla and E. P. Simoncelli. A Parametric Texture Model Based on Joint Statisticsof Complex Wavelet Coefficients. International Journal of Computer Vision,40(1):49–70, Oct. 2000. 3, 4

[26] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh,S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L.Fei-Fei.ImageNet Large Scale Visual Recognition Challenge. arXiv:1409.0575 [cs], Sept. 2014. arXiv: 1409.0575.3

[27] K. Simonyan, A. Vedaldi, and A. Zisserman. DeepInside Convolutional Networks: Visualising Image Classification Models andSaliency Maps. arXiv:1312.6034 [cs], Dec. 2013. 3

[28] K. Simonyan and A. Zisserman. Very DeepConvolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556 [cs],Sept. 2014. arXiv: 1409.1556. 3

[29] J. B. Tenenbaum and W. T. Freeman. Separatingstyle and content with bilinear models. Neural computation, 12(6):1247–1283,2000. 2

[30] L. Wei and M. Levoy. Fast texture synthesis using tree structured vectorquantization.In Proceedings of the 27th annual conference on Computer graphicsand interactive techniques, pages 479–488. ACM Press/Addison-Wesley PublishingCo., 2000. 1

[31] D. L. K. Yamins, H. Hong, C. F. Cadieu, E. A.Solomon, D. Seibert, and J. J. DiCarlo. Performance-optimized hierarchical modelspredict neural responses in higher visual cortex. Proceedings of the NationalAcademy of Sciences, page 201403112, May 2014. 8

[32] C. Zhu, R. H. Byrd, P. Lu, and J. Nocedal.Algorithm 778: L-BFGS-B: Fortran subroutines for large-scale bound constrained optimization. ACM Transactions on Mathematical Software (TOMS),23(4):550–560, 1997. 6




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章