A Neural Algorithm of Artistic Style 阅读(一)

一、文章二三

       A Neural Algorithm of Artistic Style,论文地址:https://arxiv.org/pdf/1508.06576v2.pdf,发表于CVPR2016。在一开始阅读的时候,觉得想法真的很好,一般都是开山难啊,不然也不会有后续一系列这方面的研究,以及与GAN相关的风格转换工作了。虽然arxiv上的版本扯了半天的可以此项工作可以提供人类是怎样创作和认识艺术图像的算法理解等等等等,但是我觉得神经网络毕竟不能替代真正的大脑。这项风格转换工作虽然意义很大,但是还是不能与人类大脑相媲美的。

 

二、文章内容

首先来看一下这篇文章整体上的工作:

通过一张style image和content image图片得到相应风格的图片。

首先必须要提出的,作者在原文中的一句话:

意思是,此项工作的最关键的发现是发现,内容和风格的表达在神经网络中可以分开的。那么分开的基础是什么呢?文章借用了VGG19的网络结构,具有16个卷积层和五个池化层(使用average pooling 代替 max pooling)。

VGG-19结构图如下:

文章发现,虽然VGG等网络是用于判别任务的,但是在经过多层卷积后,输入图片的特征被很好的提取了出来,更多的保留的是内容上 的特征。主要有下述两种约束。

Content ReConstruction,通过VGG-Network的‘conv1_1(a)’, ‘conv2_1(b)’, ‘conv3_1(d)’, ‘conv5_1(e)’的feature map重建输入图像。

Style Reconstruction, 在原始CNN表示的顶端构建了新的feature空间来捕获输入图像的style。style表示计算不同layer feature的相关性。在layer的子集上重建( ‘conv1 1’ (a), ‘conv1 1’ and ‘conv2 1’ (b), ‘conv1 1’, ‘conv2 1’ and ‘conv3 1’ (c), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’ and ‘conv4 1’ (d), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’ 
and ‘conv5 1’ (e))。丢弃scene信息越多,越能得到图像的style。从style feature生成关于图像的纹理,就是呈现出颜色和局部结构。

并且可以通过α与β的权重来调整二者权重的比重。

三、损失函数详解

对于内容上的约束:

对于上述式子可以求偏导得到下式:

然后利用反向传播手段对于初始的白噪声图片进行优化,使得得到的图片尽可能的倾向于content image。得到内容约束的公式。

同样对于上述公式可以求偏导利用反向传播优化初始图像。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章