文章目录

引言

本文是吴恩达深度学习第四课：卷积神经网络。本次课程将会告诉大家如何构造卷积神经网络并应用到图像数据上。从中你会学到如何构建一个卷积神经网络、如何应用卷积神经网络到图像识别和目标检测上、学习如何使用神经风格转换去生成艺术作品、能将这些算法应用到更广泛的图像应用上，比如2D、3D数据和视频。

第四课有以下四个部分，本文是第一部分。

卷积神经网络基础
深度卷积模型：实例分析
目标检测
特殊应用：人脸识别&神经风格转换

什么是人脸识别

首先要区分人脸识别与人脸验证。

给定输入图片、ID或名字，人脸验证系统做的是验证是否是这个人。做的是1:1的匹配，这种模式最常见的应用场景便是人脸解锁，终端设备只需将用户事先注册的照片与临场采集的照片做对比，判断是否为同一人，即可完成身份验证。

而人脸识别是1:K的。假设数据库中有K个人的图片，输入某个人的图片，输出这个人是否与数据库中的图片匹配或没有识别。

One-Shot学习

人脸识别所面临的一个挑战是需要解决一次学习问题(one-shot learning problem)。即在大多数人脸识别应用中需要通过单一图片取识别某个人。

大多数机器学习模型在只有一个样本进行训练的时候都表现不好。我们来看一个例子，

假设你要做一个人脸识别门禁系统，这里有四个员工。然后来了一个人，叫简

那么机器需要通过仅有的简的一张图片来识别出这个人就是简，从而打开门

相反，如果来了一个人，并不是数据库中的4个人之一，机器要知道无法识别。

所以One-shot 学习问题只能通过一个样本来进行学习，以便能够识别出一个人。
大多数人脸识别系统都需要解决这个问题，

这样训练集就很小，这种很小的训练集不足以去训练CNN模型。假设今天又有一个新员工加入了，那么将有5个员工需要识别，CNN模型的输出数也要加1，这需要修改CNN的网络结构，并且还需要重新训练。

所以为了得到更合理的结果，现在要做的是学习一个相似函数，

d代表两张图片的不同程度。

通常可以设定一个阈值，只要小于这个值，就认为这两张图片代表的是同一个人，这样就可以应用于识别任务。

分别用数据库中的员工去与这张图片计算“不相似度”，越小说明越相似。通过函数d(img1,img2)解决了one-shot问题。如果有新员工加入，只需要把新员工的照片加入数据库，系统依然能正常工作。

现在的问题是如何得到这个函数d呢

Siamese网络

实现函数d的一个方式是使用Siamese网络

假设有一个这样的卷积网络，输入图片 $x^{(1)}$ ，然后通过一系列卷积、池化和全连接等操作最终得到这样的特征向量，我们之前学过的例子是将这个向量喂给softmax单元，得到判断的类别。这里我们关注的是这个向量，假设它有128个维度，我们给这个向量一个名词，叫做 $f(x^{(1)})$ ，可以把它看成是输入图像的编码。

建立一个人脸识别系统的方法是，如果要比较两张图片的话，就是分别计算这两张图片的编码。

这里计算编码用到的是同一个网络。

接着就可以用这两个编码向量之间差的范数来表示这两张图片的距离。

这种就叫Siamese网络架构。那么要如何训练这个网络呢。这个卷积神经网络的参数定义了一个编码函数 $f(x^{i})$ ，所学习参数时，如果两个图片中是同一个人，那么两个编码的距离就要小：

改变这个网络中不同层的参数，就可以得到不同的编码输出，编码的距离也不一样。所以可以通过反向传播来学习参数，以满足上面两个条件。

那如何定义目标函数呢

Triplet损失

要想通过学习神经网络的参数来得到一个好的编码，方法之一就是定义三元组(Triplet)损失函数，然后通过梯度下降法来训练。

为了应用三元组损失函数，需要比较成对的图像，比如下面这对图像。

你想要它们的编码差异小，因为这是同一个人（吴恩达夫人）。

假如是上面这组图片，你想要它们的编码差异大一些，因为是不同的人（难道是吴恩达夫人与丈母娘）。

用三元组损失的术语来说，你要做的通常是看一个anchor图片，让anchor图片和positive图片(意味着同一人)的距离很近。

而当anchor图片和Negative(不同的人)图片的距离很远。这就是为什么叫三元组损失，因为需要同时看三张图片(anchor(A)、positive§和negative(N))。

通过公式表述的话，想要网络的参数(或得到的编码)满足一下特征：

为了防止所有的输出都为零，我们要改变一下这个式子。

不能要这些输出完全等于零，我们增加了一个超参数 $\alpha$ ，这样如果 $f$ 输出都为零的话就不满足了。这个 $\alpha$ 叫间隔(margin)。

下面就可以来定义损失函数了，给定3张图片 $A,P,N$ ：

这个 $max$ 的意思是，只要能使绿线的部分小于等于0，那么损失就是0；反之如果绿线部分大于0，那么损失就是大于零的这个值。

这是一个三元组定义的损失，整个网络的代价函数应该是训练集中的所有三元组损失之和：

为了定义三元组的数据集，你需要成对的 $A$ 和 $P$ ，所以你需要收集同一个人有多张照片的数据集。

那如何选择样本组成三元组呢，如果你随机的选择 $A,P,N$ ，要保证 $A,P$ 是同一个人， $A,N$ 是不同的人。

如果随机选择的话，那么这个约束条件很容易被满足，因为随机选择的图片， $A$ 和 $N$ 比 $A$ 和 $P$ 差别大的概率很大。

因此要尽可能选择很难训练的 $A,P,N$ 。

也就是选择的d(A,P)要很接近与d(A,N)。这样你的算法就会努力使左边的式子变小，右边的式子变大。这样这两个式子之间就会至少有一个 $\alpha$ 间隔。

在你得到了这样的数据集后

还需要做的是用梯度下降来最小化代价函数 $J$ 。

面部验证与二分类

Triplet损失是学习人脸识别卷积网络参数的好方法，这节我们介绍一下其他的方法。

我们看看如何将人脸识别当成一个二分类问题。

另一个训练神经网络的方法是选取一个Siamese网络(上面其实是同一个网络，只是表示不同输入下的输出)，使其同时计算这些特征向量。
然后将这些向量输入到逻辑回归单元，来预测是否为相同的人。

这样就转换为一个二分类问题。可以用这种方法来替换triplet损失的方法。

那最后的逻辑单元是如何处理的，输出的 $\hat y$ 为

这里的下标 $k$ 表示特征向量的维度。这里假设有128维。这是将这两个向量取元素差的绝对值。

和普通的逻辑回归一样，还可以增加权重参数和偏置参数。

这里有一个技巧，

假设这两张图片中有一张是数据库中的图片，我们不需要每次都重复将数据库中的图片喂给这个神经网得到编码，我们只需要计算一次，保存起来即可。即我们只需要储存原始图像对应的特征向量。

这样可以节省大量的计算，每次只要计算想要识别图像的编码即可。

总结一下，把人脸验证当成一个监督学习问题，只要创建一个成对图片的训练集。

然后使用反向传播算法去训练Siamese神经网络。

什么是神经风格转换

假设想用右边的艺术图片风格来转换左边的图片，得到这样的图片

神经风格转换可以完成这件事情。为了更好的描述，这里用 $C$ 表示内容(Content)图像， $S$ 表示风格(Style)图像， $G$ 表示生成(Generate)的图像。

这是另一个例子。

为了实现神经风格转换，你需要使用卷积网络提取特征。

深度卷积网络在学习什么

深度卷积网络到底在学什么，本节通过一些可视化的例子来帮助大家了解。
这有助于理解如何实现神经风格迁移。

假设你训练了一个网络，你希望看到不同层之间隐藏单元的计算结果。
你可以这样做，从第一层的某个隐藏单元开始，假设你遍历了训练集，发现一些图片或图片块，能最大程度的激活这个单元。

注意到一个特定的单元只能看到图片中的一小部分，因此下面只画出了一小块：

如果你选择了一个隐藏单元，要找出哪9个输入图像块最大程度的激活了这个单元。你可能找到了上面这样的9个图像块。

可以看到这个单元是在进行边缘检测，寻找上图这9种边缘。

然后可以选择零一个隐藏单元，重复进行上面的步骤。

把第二个隐藏单元关心的图像块加到右边，它寻找的边缘线条看起来和第一个的倾斜程度是不同的。

以此类推，假设最终得到了9个不同的神经元的结果：

现在我们得到了第一层网络中某些隐藏单元的结果，那如何对剩下的所有深层的某些单元做这样的操作会得到什么呢。

在更深的层中隐藏单元将看到更大一部分图像，

这是第一层和第二层中某9个单元得到的结果，

左上角这9个格子里面是让一个隐藏单元高度激活的九个图块，上面这个图片展示了第2层的9个隐藏单元激活的图块。

对于更深层可以重复这个过程

我们分别放大这些图片，下面是第二层：

看起来第2层在检测更加复杂的形状和模式，有寻找垂直纹理的，有寻找圆形的，还有寻找非常细的直线的。

那第3层呢

第三层就更加复杂，有的单元对汽车轮子比较感兴趣，有的对人物上半身比较感兴趣。

那下一层呢

第4层看起来比第3层还要复杂，左上角的9个格子好像说的是这个单元已经实现了一个狗检测器了。

我们经历了很长的过程从检测相对简单的东西到复杂的物体，比如从第1层的边到第2层的纹理，再到更深层中检测的非常复杂的物体。

神经风格转换代价函数

要构建一个神经风格转换系统，需要定义一个生成图像的代价函数，来判断生成图像的好坏。

那么怎么判断生成图像的好坏呢，我们把这个函数定义为两部分。第一部分称为内容代价，用来度量生成的图片和内容图片 $C$ 有多相似。第二部分是风格代价函数，用来度量图片 $G$ 的风格和图片 $S$ 有多相似。最后用两个超参数来确定两部分之间的权重。

为了生成一个新图像，接下来要做的是，

随机初始化生成图像 $G$

使用梯度下降法来最小化 $J(G)$ ，这一步实际上更新的是图像的像素值。
举个例子，这里是想要转换的图片和艺术图片。

假设第一步随机生成的是这种像素点：

接下来运行梯度下降法最小化代价函数 $J$ ，逐步处理相似度，慢慢得到下面这样一个图片：

最后用越来越像的风格画出下面的图片

下面我们来看下如何定义内容代价函数。