文章目錄

引言

本文是吳恩達深度學習第四課：卷積神經網絡。本次課程將會告訴大家如何構造卷積神經網絡並應用到圖像數據上。從中你會學到如何構建一個卷積神經網絡、如何應用卷積神經網絡到圖像識別和目標檢測上、學習如何使用神經風格轉換去生成藝術作品、能將這些算法應用到更廣泛的圖像應用上，比如2D、3D數據和視頻。

第四課有以下四個部分，本文是第一部分。

卷積神經網絡基礎
深度卷積模型：實例分析
目標檢測
特殊應用：人臉識別&神經風格轉換

什麼是人臉識別

首先要區分人臉識別與人臉驗證。

給定輸入圖片、ID或名字，人臉驗證系統做的是驗證是否是這個人。做的是1:1的匹配，這種模式最常見的應用場景便是人臉解鎖，終端設備只需將用戶事先註冊的照片與臨場採集的照片做對比，判斷是否爲同一人，即可完成身份驗證。

而人臉識別是1:K的。假設數據庫中有K個人的圖片，輸入某個人的圖片，輸出這個人是否與數據庫中的圖片匹配或沒有識別。

One-Shot學習

人臉識別所面臨的一個挑戰是需要解決一次學習問題(one-shot learning problem)。即在大多數人臉識別應用中需要通過單一圖片取識別某個人。

大多數機器學習模型在只有一個樣本進行訓練的時候都表現不好。我們來看一個例子，

假設你要做一個人臉識別門禁系統，這裏有四個員工。然後來了一個人，叫簡

那麼機器需要通過僅有的簡的一張圖片來識別出這個人就是簡，從而打開門

相反，如果來了一個人，並不是數據庫中的4個人之一，機器要知道無法識別。

所以One-shot 學習問題只能通過一個樣本來進行學習，以便能夠識別出一個人。
大多數人臉識別系統都需要解決這個問題，

這樣訓練集就很小，這種很小的訓練集不足以去訓練CNN模型。假設今天又有一個新員工加入了，那麼將有5個員工需要識別，CNN模型的輸出數也要加1，這需要修改CNN的網絡結構，並且還需要重新訓練。

所以爲了得到更合理的結果，現在要做的是學習一個相似函數，

d代表兩張圖片的不同程度。

通常可以設定一個閾值，只要小於這個值，就認爲這兩張圖片代表的是同一個人，這樣就可以應用於識別任務。

分別用數據庫中的員工去與這張圖片計算“不相似度”，越小說明越相似。通過函數d(img1,img2)解決了one-shot問題。如果有新員工加入，只需要把新員工的照片加入數據庫，系統依然能正常工作。

現在的問題是如何得到這個函數d呢

Siamese網絡

實現函數d的一個方式是使用Siamese網絡

假設有一個這樣的卷積網絡，輸入圖片 $x^{(1)}$ ，然後通過一系列卷積、池化和全連接等操作最終得到這樣的特徵向量，我們之前學過的例子是將這個向量餵給softmax單元，得到判斷的類別。這裏我們關注的是這個向量，假設它有128個維度，我們給這個向量一個名詞，叫做 $f(x^{(1)})$ ，可以把它看成是輸入圖像的編碼。

建立一個人臉識別系統的方法是，如果要比較兩張圖片的話，就是分別計算這兩張圖片的編碼。

這裏計算編碼用到的是同一個網絡。

接着就可以用這兩個編碼向量之間差的範數來表示這兩張圖片的距離。

這種就叫Siamese網絡架構。那麼要如何訓練這個網絡呢。這個卷積神經網絡的參數定義了一個編碼函數 $f(x^{i})$ ，所學習參數時，如果兩個圖片中是同一個人，那麼兩個編碼的距離就要小：

改變這個網絡中不同層的參數，就可以得到不同的編碼輸出，編碼的距離也不一樣。所以可以通過反向傳播來學習參數，以滿足上面兩個條件。

那如何定義目標函數呢

Triplet損失

要想通過學習神經網絡的參數來得到一個好的編碼，方法之一就是定義三元組(Triplet)損失函數，然後通過梯度下降法來訓練。

爲了應用三元組損失函數，需要比較成對的圖像，比如下面這對圖像。

你想要它們的編碼差異小，因爲這是同一個人（吳恩達夫人）。

假如是上面這組圖片，你想要它們的編碼差異大一些，因爲是不同的人（難道是吳恩達夫人與丈母孃）。

用三元組損失的術語來說，你要做的通常是看一個anchor圖片，讓anchor圖片和positive圖片(意味着同一人)的距離很近。

而當anchor圖片和Negative(不同的人)圖片的距離很遠。這就是爲什麼叫三元組損失，因爲需要同時看三張圖片(anchor(A)、positive§和negative(N))。

通過公式表述的話，想要網絡的參數(或得到的編碼)滿足一下特徵：

爲了防止所有的輸出都爲零，我們要改變一下這個式子。

不能要這些輸出完全等於零，我們增加了一個超參數 $\alpha$ ，這樣如果 $f$ 輸出都爲零的話就不滿足了。這個 $\alpha$ 叫間隔(margin)。

下面就可以來定義損失函數了，給定3張圖片 $A,P,N$ ：

這個 $max$ 的意思是，只要能使綠線的部分小於等於0，那麼損失就是0；反之如果綠線部分大於0，那麼損失就是大於零的這個值。

這是一個三元組定義的損失，整個網絡的代價函數應該是訓練集中的所有三元組損失之和：

爲了定義三元組的數據集，你需要成對的 $A$ 和 $P$ ，所以你需要收集同一個人有多張照片的數據集。

那如何選擇樣本組成三元組呢，如果你隨機的選擇 $A,P,N$ ，要保證 $A,P$ 是同一個人， $A,N$ 是不同的人。

如果隨機選擇的話，那麼這個約束條件很容易被滿足，因爲隨機選擇的圖片， $A$ 和 $N$ 比 $A$ 和 $P$ 差別大的概率很大。

因此要儘可能選擇很難訓練的 $A,P,N$ 。

也就是選擇的d(A,P)要很接近與d(A,N)。這樣你的算法就會努力使左邊的式子變小，右邊的式子變大。這樣這兩個式子之間就會至少有一個 $\alpha$ 間隔。

在你得到了這樣的數據集後

還需要做的是用梯度下降來最小化代價函數 $J$ 。

面部驗證與二分類

Triplet損失是學習人臉識別卷積網絡參數的好方法，這節我們介紹一下其他的方法。

我們看看如何將人臉識別當成一個二分類問題。

另一個訓練神經網絡的方法是選取一個Siamese網絡(上面其實是同一個網絡，只是表示不同輸入下的輸出)，使其同時計算這些特徵向量。
然後將這些向量輸入到邏輯迴歸單元，來預測是否爲相同的人。

這樣就轉換爲一個二分類問題。可以用這種方法來替換triplet損失的方法。

那最後的邏輯單元是如何處理的，輸出的 $\hat y$ 爲

這裏的下標 $k$ 表示特徵向量的維度。這裏假設有128維。這是將這兩個向量取元素差的絕對值。

和普通的邏輯迴歸一樣，還可以增加權重參數和偏置參數。

這裏有一個技巧，

假設這兩張圖片中有一張是數據庫中的圖片，我們不需要每次都重複將數據庫中的圖片餵給這個神經網得到編碼，我們只需要計算一次，保存起來即可。即我們只需要儲存原始圖像對應的特徵向量。

這樣可以節省大量的計算，每次只要計算想要識別圖像的編碼即可。

總結一下，把人臉驗證當成一個監督學習問題，只要創建一個成對圖片的訓練集。

然後使用反向傳播算法去訓練Siamese神經網絡。

什麼是神經風格轉換

假設想用右邊的藝術圖片風格來轉換左邊的圖片，得到這樣的圖片

神經風格轉換可以完成這件事情。爲了更好的描述，這裏用 $C$ 表示內容(Content)圖像， $S$ 表示風格(Style)圖像， $G$ 表示生成(Generate)的圖像。

這是另一個例子。

爲了實現神經風格轉換，你需要使用卷積網絡提取特徵。

深度卷積網絡在學習什麼

深度卷積網絡到底在學什麼，本節通過一些可視化的例子來幫助大家瞭解。
這有助於理解如何實現神經風格遷移。

假設你訓練了一個網絡，你希望看到不同層之間隱藏單元的計算結果。
你可以這樣做，從第一層的某個隱藏單元開始，假設你遍歷了訓練集，發現一些圖片或圖片塊，能最大程度的激活這個單元。

注意到一個特定的單元只能看到圖片中的一小部分，因此下面只畫出了一小塊：

如果你選擇了一個隱藏單元，要找出哪9個輸入圖像塊最大程度的激活了這個單元。你可能找到了上面這樣的9個圖像塊。

可以看到這個單元是在進行邊緣檢測，尋找上圖這9種邊緣。

然後可以選擇零一個隱藏單元，重複進行上面的步驟。

把第二個隱藏單元關心的圖像塊加到右邊，它尋找的邊緣線條看起來和第一個的傾斜程度是不同的。

以此類推，假設最終得到了9個不同的神經元的結果：

現在我們得到了第一層網絡中某些隱藏單元的結果，那如何對剩下的所有深層的某些單元做這樣的操作會得到什麼呢。

在更深的層中隱藏單元將看到更大一部分圖像，

這是第一層和第二層中某9個單元得到的結果，

左上角這9個格子裏面是讓一個隱藏單元高度激活的九個圖塊，上面這個圖片展示了第2層的9個隱藏單元激活的圖塊。

對於更深層可以重複這個過程

我們分別放大這些圖片，下面是第二層：

看起來第2層在檢測更加複雜的形狀和模式，有尋找垂直紋理的，有尋找圓形的，還有尋找非常細的直線的。

那第3層呢

第三層就更加複雜，有的單元對汽車輪子比較感興趣，有的對人物上半身比較感興趣。

那下一層呢

第4層看起來比第3層還要複雜，左上角的9個格子好像說的是這個單元已經實現了一個狗檢測器了。

我們經歷了很長的過程從檢測相對簡單的東西到複雜的物體，比如從第1層的邊到第2層的紋理，再到更深層中檢測的非常複雜的物體。

神經風格轉換代價函數

要構建一個神經風格轉換系統，需要定義一個生成圖像的代價函數，來判斷生成圖像的好壞。

那麼怎麼判斷生成圖像的好壞呢，我們把這個函數定義爲兩部分。第一部分稱爲內容代價，用來度量生成的圖片和內容圖片 $C$ 有多相似。第二部分是風格代價函數，用來度量圖片 $G$ 的風格和圖片 $S$ 有多相似。最後用兩個超參數來確定兩部分之間的權重。

爲了生成一個新圖像，接下來要做的是，

隨機初始化生成圖像 $G$

使用梯度下降法來最小化 $J(G)$ ，這一步實際上更新的是圖像的像素值。
舉個例子，這裏是想要轉換的圖片和藝術圖片。

假設第一步隨機生成的是這種像素點：

接下來運行梯度下降法最小化代價函數 $J$ ，逐步處理相似度，慢慢得到下面這樣一個圖片：

最後用越來越像的風格畫出下面的圖片

下面我們來看下如何定義內容代價函數。