卷积神经网络.基础知识

本文是根据吴恩达大仙^_^的卷积神经网络课程总结的笔记

注：在数学上，卷积操作一般之前都会存在一个对filter做翻转的操作，但是我们在深度学习上的卷积并没有对filter做翻转，深度学习上所说的卷积操作实际上应该叫交叉相关，但是大部分深度学习文献都将其称作卷积，所以我们在根据这条约定俗成的规则将其称作卷积操作，对于是否翻转对于深度学习领域来说并不重要，但是翻转在信号处理等领域却有着重要的作用。

1.Padding

中文意思为填充

分析上面的卷积操作：

左边我们输入的图像的大小为 6*6, filter的大小为 3*3，按照一般的卷积操作(这里假设没有提出padding、stride的概念)：

我们得到的结果输出维度为 (6-3+1)*(6-3+1),即 4*4

按照上面的操作我们会发现这样操作会有两个缺陷：

1.输出维度逐渐缩小------输入图像经过一次卷积过后，你的图像将会从 6*6 降维到 4*4，那如果图像连续经过多次卷积，输出图像的维度将会非常非常小，甚至输出维度降维 1*1，但是并不是每次卷积我们都想要将图像维度缩小(例如我们在做same conv时)

2.丢失忽略角落边界图像信息------输入图像角落或者边缘上的像素在一次卷积过程中只被使用一次，而在图像中间的像素点则会在一次卷积过程中多次被filter所重叠计算，所以相对而言，角落或者边界上的像素被使用的次数少很多，这样会导致最终卷积的结果会丢失忽略很多靠近图片边界的图像信息

所以，为了解决上面的两个问题，引入了 padding 这一概念，即在是使用卷积操作前，在输入图像的四面边缘填充1个像素大小的额外边缘，如下图所示：

n=8,即变成了一个 8*8 的图片经过一个 3*3的filter卷积，得到输出图像维度变成 6*6，而不是4*4，这样我们通过padding保持了图片的原始大小 6*6。

因为padding是在输入图像的边缘额外填充了p圈，也就是输入图像维度变成了

所以我们得到的输出图像维度大小为

对于需要填充数字p的选择，我们有两个常见的选择： valid convolution、same convolution

1.valid convolution：

有效卷积，基本意思是没有填充，即 p = 0

2.same convolution：

选择的填充将使得输出大小维度等于输入大小维度，即 ====> $p=\frac{f-1}{2}$ .

在计算机视觉当中，f基本上都是使用奇数(一般1*1、3*3 、5*5、7*7)，极少数是偶数大小的，导致这种现象的一般有两个原因：

1.如果f是偶数，将会导致一些不对称的填充；只有当f是奇数时，这种same 卷积才会产生，在四周有相同的维度的一个自然的填充区域，而不是在左边多填充在右边少填充的情况

2.其次在奇数大小的filter，都会有一个中心位置，一般称作中心像素，这样就可以描述filter的位置

2. stride

中文意思是步幅

如上所示的例子，我们将stride设置为2，即步长为2，filter会移动两个像素单位。

所以我们对 7*7 的输入图像，使用一个3*3的filter做卷积操作，stride为2，默认的padding = 0，得到的输出结果维度为

$(\frac{7+0-3}{2}+1) * (\frac{7+0-3}{2}+1)$ ,即 3*3

3.卷积的操作的通用公式：

对于一个n*n大小的输入图片，使用一个大小为 f*f 的filter，其中padding为p，卷积stride为 s，得到的输出结果的维度为：

$(\frac{n+2p-f}{s}+1)*(\frac{n+2p-f}{s}+1)$

这里会存在一个问题，如果前面的除法中分子不能被分母整除怎么办？这里一般都是向下取整floor(z),即最接近z的小于z的整数

之所以这样是因为在filter在移动过程中肯定是不能够超过输入图像自身范围或其填充区域范围的。

例如上面的 7*7 的输入图像，使用一个3*3的filter做卷积操作，stride为3，padding=0，得到的输出结果维度只能是(7+0-3)/3+1,即维度为2*2，而不会是3*3

4. RGB图像的卷积操作

在实际应用中，我们输入的图像一般不会是灰度图像而是RGB彩色图像

例如如上的输入图像的维度为 6*6*3(其中6表示输入图像的宽高，3表示是RGB三通道)，filter为3*3*3(filter中的通道数必须和输入图像维度的通道数一致，输入图像为RGB三通道，那么filter同样也有类似的RGB三通道参数)，输出图像维度为 4*4*1(通道数由filter的数量来决定的，这里只使用了一个filter，所以通道数为1)

这里注意到filter的参数为3*3*3=27个，其每一层的参数与输入图像的每一层数据进行相乘求和，最终将三层的求和结果相加，得到输出图像上了像素点值；接着正常的将filter移动s个步长，进行下一个点输出计算，以此类推，最终得到了最终的输出图像且维度为4*4*1.

这里为什么会要求filter的通道数与输入图像的通道数一致呢?

我们假设一种场景，输入通道为RGB三通道的，我们的filter的通道也为RGB三通道，我们可以针对输入图像做一些相关操作，例如，我们想检测输入图像RGB中的红色通道边缘，那我们可以将filter自身的GB通道参数均设置为0，仅设置R通道相关参数，这样叠加三个通道的filter就可以用来检测输入图像红色通道的垂直水平边缘了。

如果我们想既检测垂直边缘有检测水平边缘等多种图像特征时，我们需要同时使用多个filter,即使用多个filter来检测输入图像中的多个特征！具体如下：

这里使用了一个检测垂直边缘的filter和一个检测水平边缘的filter,输入图像和每个filter做卷积都会得到一个4*4的输出，两个filter最终会得到两个4*4的输出，叠加在一起则就是最终的输出图像维度为 4*4*2（这里的输出维度2表示使用了2个filter）

这里我们总结一下：

输入图像维度为 N*N*Nc（前面两项为图像的宽、高，Nc表示通道数）

filters：维度为f*f*Nc*Nf（前面两项为filter的宽、高，Nc表示filter的通道数，该数与输入图像通道数保持一致,Nf表示filter的数量）这里的padding=0,stride = 1

输出图像维度为 (N-f+1)*(N-f+1)*Nf (这里的通道数也就是filters的数量)

5.构建单层卷积神经网络

如上图所示：

对于图中的输入图像6*6*3，和第一个3*3*3维度的filter做卷积，得到第一个4*4的输出；应用第二个卷积filter得到了另一个4*4的输出，

最终我们需要把这些输出变成单层卷积神经网络，还需要对每一个输出添加一个偏差bias(也就是对前面每一个卷积得到的16个数每个均需要加上相同的偏差，偏差为实数)，然后我们可以继续添加一些非线性转换 ReLU。最终通过添加偏差和非线性转换得到一个4*4的矩阵输出；对于下面的矩阵同样也是加上一个不同的偏差值以及应用非线性处理函数得到另一个4*4的矩阵输出；像之前一样，最后将两个矩阵叠加在一起得到一个4*4*2的输出；如上就是卷积神经网络的一层了。

现在将上面的这个例子与普通的非卷积单层前向传播神经网络对应起来，

$z^{[1]} = W^{[1]} * a^{[0]} + b^{[1]}$