吳恩達深度學習——目標檢測

引言

本文是吳恩達深度學習第四課:卷積神經網絡。本次課程將會告訴大家如何構造卷積神經網絡並應用到圖像數據上。從中你會學到如何構建一個卷積神經網絡、如何應用卷積神經網絡到圖像識別和目標檢測上、學習如何使用神經風格轉換去生成藝術作品、能將這些算法應用到更廣泛的圖像應用上,比如2D、3D數據和視頻。

第四課有以下四個部分,本文是第一部分。

  1. 卷積神經網絡基礎
  2. 深度卷積模型:實例分析
  3. 目標檢測
  4. 特殊應用:人臉識別&神經風格轉換

目標定位

在實現目標檢測(對象檢測)之前,我們先了解一下目標定位。

在這裏插入圖片描述
在圖像分類中我們可以知道這張圖片中有沒有汽車。

在這裏插入圖片描述
而定位分類問題不僅要判斷圖片中是否有汽車,如果有的話還要在圖片中標出它的位置。

在這裏插入圖片描述
而檢測問題是,當圖片中有多個對象時,應該如何檢測它們並確定出位置。
在對象檢測問題中,圖片中可以含有多個對象。

先看下圖像分類
在這裏插入圖片描述
圖像分類問題我們已經很熟悉了,可以用卷積神經網絡來做,這裏比如有四個類別,分別是行人、汽車、摩托和背景。

那如果還想定位圖片中汽車的位置,應該如何做呢

我們可以改變上面分類網絡的輸出,讓它輸出一個邊框(bounding box)。

在這裏插入圖片描述

具體的就是輸出四個數:bx,by,bh,bxb_x,b_y,b_h,b_x

在這裏插入圖片描述
左上角的座標定爲(0,0)(0,0),右下角定爲(1,1)(1,1)
邊框的中間點座標爲(bx,by)(b_x,b_y),邊框的高和寬爲bhb_hbwb_w

然後就可以使用監督學習算法輸出一個分類標籤,還有這四個數值,從而給出被檢測對象的邊框位置。

在這裏插入圖片描述
在這個例子中bxb_x約爲0.50.5,因爲它在x軸方向中間位置,byb_y約爲0.70.7,表示汽車位於距離圖片底部3/103/10的位置。

bh=0.3b_h = 0.3表示邊框高度是圖像高度的0.30.3倍,同理bw=0.4b_w = 0.4表示寬度爲圖片寬度的0.40.4倍。

下面定義下輸出向量yy,第一個元素PcP_c表示是否含有目標對象,如果圖片中含有行人、汽車或摩托則Pc=1P_c =1,否則Pc=0P_c = 0

在這裏插入圖片描述
接下來是邊框的四個數值。
在這裏插入圖片描述
然後如果Pc=1P_c=1,那麼還要輸出圖片中包含3個類別的概率:
在這裏插入圖片描述
這裏我們先假設圖片中只含有一個對象。
下面我們來看幾個例子。

在這裏插入圖片描述
這個圖片中有汽車,所以Pc=1P_c=1,然後是邊框值,汽車屬於第二個類別,因此c2=1c_2=1,其他都爲零。

那如果圖片中沒有要檢測的類別呢?
在這裏插入圖片描述
此時Pc=0P_c=0,那麼其他值就無意義了,因此我們不關心其他元素值。

我們可以根據這樣的方式定義訓練集。

最後介紹一個訓練神經網絡的損失函數。

如果採用平方誤差,若y1=1y_1 =1,就有下面的式子:

在這裏插入圖片描述
因爲我們輸出的yy有8個元素,比如第一個元素是PcP_c,最後一個元素是c3c_3。此時用平方誤差可以減少這8個元素值與實際輸出值結果之間的差值平方。

y1=0y_1 = 0,那麼損失爲
在這裏插入圖片描述
因爲這種情況下,我們不考慮其他元素。

以上就是利用神經網絡解決對象分類和定位問題的過程,結果證明,利用神經網絡輸出批量實數來識別圖片中的對象是個非常有用的算法。

下節和大家分享另一種思路,把神經網絡輸出的實數集作爲一個迴歸任務。

特徵點檢測

神經網絡可以輸出圖片上特徵點的(x,y)(x,y)座標來實現母特徵的識別。
在這裏插入圖片描述
(這是吳恩達夫人)

假設你希望算法可以給出四個眼角的具體位置,你可以讓神經網路多輸出8個值,代表眼角的座標,從左到右。

也許除了這四個特徵點,你還想得到更多的特徵點輸出值,

在這裏插入圖片描述
比如眼睛和鼻子嘴巴的特徵點。這樣可以判斷人物是在微笑還是皺眉。

在這裏插入圖片描述
你可以設定特徵點的個數,這裏假設有64個。可以包括更多的信息,比如臉頰的位置。
在這裏插入圖片描述

選定特徵點的個數,並生成包含這些特徵點的標籤訓練集,然後利用神經網絡輸出臉部關鍵特徵點的位置。

在這裏插入圖片描述
用卷積神經網絡來做的話,也是輸出是否含有人臉,接着是這64個特徵點的座標。這個例子中有64×2+1=12964 \times 2 + 1 = 129個輸出。

由此可以實現對圖片的人臉檢測和定位。

檢測臉部特徵點也是計算機圖形效果的一個關鍵構造模塊,可以實現頭戴皇冠和臉部扭曲等特效。

顯然要訓練這樣一個網絡,需要訓練數據集X,YX,Y,訓練集中的特徵點都是人爲辛苦標註的。

在這裏插入圖片描述
如果對人體姿態感興趣,還可以標出人體姿態的一些關鍵特徵點。

值得一提的是,所有圖片中的特徵點要保持一致,比如第一個特徵點是左眼的左邊眼角,第二個特徵點是左眼的右邊眼角座標。

目標檢測

現在我們來構建一個目標檢測算法。我們要用卷積網絡進行目標檢測,採用的是基於滑動窗口的目標檢測算法。

在這裏插入圖片描述
假設你想構建一個汽車檢測算法,首先你需要創建一個標籤訓練集。

其中xx表示適當剪切的汽車圖片樣本,
在這裏插入圖片描述
對於這個訓練集,你一開始可以使用適當剪切的圖片,就是整張圖片幾乎都是汽車。

有了這個訓練集,你就可以開始訓練卷積神經網絡了。

在這裏插入圖片描述
輸入是適當剪切了的圖片,輸出就是是否爲汽車。訓練完這個卷積網絡,就可以用它來實現滑動窗口目標檢測。

在這裏插入圖片描述

假設這是一張測試圖片,首先選定一個特徵大小的窗口(滑動窗口),比如上圖那個紅框。然後將這個紅框輸入到這個卷積神經網絡中,然後只取這個小框內的圖像。把這個小框內的圖像輸入到上面學習的卷積神經網絡中,讓卷積網絡預測這個小框內是否有汽車。
在這裏插入圖片描述
接下里要做的是移動小框的位置,輸入第二個小框內的圖像。用卷積網絡判斷其中是否含有汽車。
在這裏插入圖片描述
以此類推,知道滑動窗口遍歷了圖像中的所有位置。
在這裏插入圖片描述

現在用這個滑動窗口遍歷完圖像之後,再用更大的窗口來遍歷一次。

在這裏插入圖片描述
遍歷完了之後還可以用一個更大的窗口再遍歷一次。
在這裏插入圖片描述
我們希望,只要圖像彙總某處有一輛車,就會有某個窗口輸入到卷積神經網絡中得到11。比如希望這個窗口輸出11
在這裏插入圖片描述
這樣就檢測到這裏有一輛汽車。這就是滑動窗口算法。

不過,滑動窗口檢測算法有一個很大的缺點,就是它的計算成本。因爲你裁剪出了很多不同的正方形圖像。並讓每個圖像都單獨通過卷積神經網絡進行運算,如果你使用一個很大的步長,那麼窗口數就會減少。

但是比較粗的粒度可能會影響算法的表現。如果你用了較小的步長,就會得到很多窗口。將它們全部通過卷積神經網絡意味着很高的計算成本。

幸運的是,這個計算成本的問題有一個很好的解決方案。我們下節介紹。

卷積的滑動窗口實現

我們先看下如何將卷積網絡中的全連接層轉化爲卷積層。

在這裏插入圖片描述
假設有一個這樣的卷積神經網絡,這裏用softmax輸出四個類別。
現在來展示如何將上圖紅線中的這些層轉換爲卷積層。
在這裏插入圖片描述
這是一個卷積神經網絡,前幾層和之前相同。現在實現這一層全連接層的一個方式是用步長爲1大小爲5×55 \times 5(400個)的過濾器代替之前的全連接層。
在這裏插入圖片描述
5×5×165 \times 5 \times 16的圖像和5×5×165 \times 5 \times 16的過濾器做卷積操作,所以輸出大小爲1×1×4001 \times 1 \times 400

在這裏插入圖片描述
從數學上來講,這和一個全連接層是一樣的。

因爲這400個節點中每個節點都有一個5×5×165 \times 5 \times 16的過濾器,所以每個值都是上一層這些5×5×165 \times 5 \times 16激活值經過某個任意線性函數的輸出結果。

在這裏插入圖片描述
接着再添加另一個1×11 \times 1(400個)的卷積層,在這400個過濾器的作用下,下一層的大小是1×1×4001\times 1 \times 400

在這裏插入圖片描述
最後通過1×11 \times 1過濾器的處理,得到一個softmax激活值。

以上就是用卷積層代替全連接層的過程。

我們再看看如何通過卷積實現滑動窗口對象檢測算法。

內容借鑑了 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

假設像滑動窗口卷積網絡輸入14×14×314 \times 14 \times 3的圖片,爲了簡化。

在這裏插入圖片描述
假設你測試集圖片是16×16×316 \times 16 \times 3

在這裏插入圖片描述
在最初的滑動窗口算法中,你會把紅框這部分藍色方塊輸入到卷積網絡,得到0或1分類。
在這裏插入圖片描述
接着滑動窗口,步長爲2,得到下面這個綠框方塊,讓後將其輸入到卷積網絡中得到輸出。
在這裏插入圖片描述
繼續滑動,接着輸入下面黃框方塊到卷積網絡,得到輸出。
在這裏插入圖片描述
再一次向右移動,得到紫框方塊,輸入卷積網絡得到分類輸出。
在這裏插入圖片描述
所以我們在這個16×16×316 \times 16 \times 3的圖像上滑動窗口,讓卷積網絡運行了4次,輸出了4個標籤。

但是,這4次卷積操作中的很多計算都是重複的,滑動窗口卷積方式的實現是讓這4次卷積神經網絡的前運算共享計算過程。

具體的你可以這麼做,你可以運行這個卷積神經網絡,用同樣的參數和相同的16個5×55 \times 5的過濾器,得到一個12×12×1612 \times 12 \times 16的輸出。

在這裏插入圖片描述
在這裏插入圖片描述
然後像之前一樣,做最大池化,得到6×6×166\times 6 \times 16。接着使用相同的400個5×55 \times 5的過濾器得到一個2×2×402 \times 2 \times 40的卷積輸出。

在這裏插入圖片描述
再經過一個1×11\times 1的過濾器得到另一個2×2×4002 \times 2 \times 400的輸出,再做一次同樣的操作就可以得到2×2×42 \times 2 \times 4的輸出。

最終在輸出層這4個子方塊中,藍色的是圖像左上部分(紅框方塊)14×1414 \times 14的輸出。

在這裏插入圖片描述
同理其他3個方塊對應不同顏色區域的輸出。
在這裏插入圖片描述
如果具體想看某一塊方塊的運算過程,比如綠框方塊,它就是下面這樣的:
在這裏插入圖片描述
所以該卷積操作的原理是,我們不需要把輸入圖片分割成四個子集,分別執行前向傳播,而是把它們作爲一張圖片輸入給卷積網絡進行計算。

其中公共區域可以共享很多計算。

再來看一個輸入圖像更大的例子。
在這裏插入圖片描述
最終輸出矩陣的最左上子方塊對應着輸入的這塊區域。
在這裏插入圖片描述
然後以步長爲2不停的移動,就可以得到整個輸出8×8×48 \times 8 \times 4

在這裏插入圖片描述

以上就是在卷積層上應用滑動窗口算法的內容,它提高了整個算法的效率。

不過這個算法仍然有一個缺點,就是邊框的位置可能不夠準確。
下節來學習如何解決這個問題。

邊框預測

在這裏插入圖片描述
在滑動窗口中,你取這些離散的位置集合,此時這些邊界框沒有一個能完美匹配汽車位置。
也許上圖這個框是最匹配的了。

在這裏插入圖片描述
但是它的真實值可能不是一個方向,而是一個矩形。那有沒有辦法讓這算法輸出更精準的邊框呢

其中一個能得到更精準的邊框的算法是YOLO(you only look once)算法。該算法是這麼做的,
在這裏插入圖片描述
假設你的圖像是100×100100 \times 100的,在上面放一個3×33 \times 3(這裏只是爲了演示,實際上可能取19×1919 \times 19)的網格。

然後使用圖像分類和定位算法應用到這9個格子中。
此時你需要這樣定義訓練標籤,對於9個格子中的每一個,指定一個標籤yy
在這裏插入圖片描述
像前面介紹的一樣,頂一個一個8維向量。

這張圖有9個格子,每個格子都有這樣一個向量。

在這裏插入圖片描述
我們看下左上方這個格子,裏面沒有要檢測的對象,所以它的輸出是
在這裏插入圖片描述
在這裏插入圖片描述
我們直接來看有對象的格子,這張圖裏面共有兩個要檢測對象。YOLO算法做的是取這個對象的中點,然後將這個對象分配給包含對象中點的格子。

這兩輛車的中點分別在綠色和黃色格子裏面,它們中間的那個格子即使同時包含兩輛車的一部分,也不會說它有要檢測的對象。

所以每個格子都有一個8維的輸出向量,總的輸出大小爲3×3×83 \times 3 \times 8

這個算法的優點是可以輸出精確的邊框,所以測試的時候,只要喂入測試圖像xx,然後正向傳播就能得到輸出yy

我們現在學習的還是一個格子中只有一個對象的問題。

YOLO算法和圖像分類和定位算法非常像,即能顯示地輸出邊框座標,但是可以具有任意高寬比,並且能輸出更精確的座標。

並且這是一個卷積實現,使用卷積網絡可以有很多共享計算步驟,所以這個算法的效率很高。

如何編碼實現bx,by,bh,bwb_x,b_y,b_h,b_w呢,
在這裏插入圖片描述
以黃框裏面的格子爲例,它的輸出會是右邊這樣的。還是指定左上角的座標爲(0,0)(0,0),右下角的座標爲(1,1)(1,1)

在這裏插入圖片描述
這裏bx,byb_x,b_y(在0,10,1之間)說的是目標對象中點位置左邊,而bh,bwb_h,b_w(可能大於11)是相對格子大小的比例。這裏只是一種編碼約定,其實還有其他更加複雜的方式。

交併比

在對象檢測任務中,我們希望也能同時定位到對象。

在這裏插入圖片描述
如果對象的實際邊框是紅色,我們的算法給出的是紫色。那麼如何評價這個結果的好壞呢。可以用交併比來做。

交併比(IoU,intersection over union)做的是計算兩個邊框交集和並集之比。
在這裏插入圖片描述
這兩個對象的並集是綠色填充的這一區域。
在這裏插入圖片描述
而交集是黃色較小的區域。那麼交併比就是計算交集的大小除以並集的大小。
在這裏插入圖片描述
一般約定交併比的結果不小於0.50.5就是檢測正確的。如果預測結果和實際邊框完美重疊,則交併比取最大值11

IoU越大說明定位越精確。

非極大值抑制

現在爲止我們學到的對象檢測中的一個問題是,我們的算法可能對同一個對象作出多次檢測。

而最大值抑制這個方法可以確保算法對每個對象只檢測一次。

在這裏插入圖片描述

假設我們要在這張圖裏面檢測行人和汽車,我們放一個19×1919 \times 19的網格,這張圖裏面有兩輛車,每輛車都只有一箇中點。
在這裏插入圖片描述
假設中點如上圖所示,理論上應該只有兩個格子作出有車的預測。但實際當你跑分類和定位算法時,可能會有多個格子預測有車,如下圖,每個對象區域內都有3個格子預測有車。
在這裏插入圖片描述
現在我們看一下非最大值抑制是怎麼生效的,因爲要在19×19=36119 \times 19 = 361個格子上都跑一次圖像檢測和定位算法,那麼可能很多格子都會說它這個格子裏面有車的概率很高。

而實際上這幅圖應該只有兩個格子能檢測到對象。

在這裏插入圖片描述
所以當你的算法對同一個對象作出多次檢測時,此時應用非最大值抑制做的就是清理這些檢測結果。

首先看每個格子報告有目標的概率是多大,這裏上圖中的數字就是這個概率。
在這裏插入圖片描述
然後找到概率最大0.90.9的那個,然後非最大值抑制就會一一檢測剩下的矩形,所有和這個最大的邊框有很高交併比(高度重疊)的其他邊框都會被抑制,
在這裏插入圖片描述
所以pcp_c分別是0.60.60.70.7的兩個暗藍色矩陣和0.90.9的矩陣重疊程度很高,都會被抑制。
在這裏插入圖片描述
同理左邊的車,概率爲0.70.7的矩形就會被抑制(變暗)。此時如果拋棄變暗的矩形,最後就得到了兩個預測結果。
在這裏插入圖片描述
所以這就是非最大值抑制,意味着只輸出概率最大的結果。

下面來看一下這個算法的細節。首先在這個19×1919 \times 19的網格上跑一下算法,就會得到19×19×819 \times 19 \times 8的輸出尺寸。

在這裏插入圖片描述
在這裏插入圖片描述
這個例子我們簡化一下輸出,假設只做汽車檢測,也就是去掉了c1,c2,c3c_1,c_2,c_3
在這裏插入圖片描述
現在要實現非最大值抑制,做的第一件事情是去掉所有不大於某個閾值的邊框,這裏閾值假設是0.60.6

接下來在剩下的邊框中,

只要還有剩餘邊框(循環):

  • 重複地選擇概率pcp_c最大的邊框,當成輸出邊框,預測結果
  • 丟掉其他剩餘邊框,這些邊框都和輸出邊框有很高的的IoU(上面介紹的變暗的那些邊框)

直到每個邊框都判斷過了,它們有的作爲輸出結果,有的被丟掉了。

錨框

到目前爲止,對象檢測中存在的一個問題是,每個格子只能檢測出一個對象。
如果你想讓一個格子檢測出多個對象,那麼就要使用錨框(anchor box)。

還是從例子開始介紹,假設你有張這樣的圖片:
在這裏插入圖片描述
行人的中點和汽車的中點幾乎處在相同的位置。所以對於中點所在的這個格子,
在這裏插入圖片描述
將不知道輸出哪一個,因爲必須從兩個結果中選一個。

而anchor box的思路是預先定義兩個不同形狀的anchor box形狀:

在這裏插入圖片描述
你要做的就是將預測結果與這兩個anchor box關聯起來。此時的輸出定義成這樣,即同時輸出兩個邊框信息:

在這裏插入圖片描述

使用anchor box後,每個對象都被分配到對象中點所在的格子中,和一個IoU值最高、具有對象形狀的anchor box中。
在這裏插入圖片描述
比如你有個對象時紅框形狀的,你有兩個anchor box,此時IoU值最高的anchor就是豎着的那個。

下面舉個實際的例子,
在這裏插入圖片描述
這個格子有兩個對象,它的輸出如上圖右邊那個向量所示,首先是行人形狀的anchor box1,下面接着一個汽車形狀的anchor box2。

那假設這個圖像中只有汽車,沒有行人,那輸出會是怎樣的呢,還是假設汽車的形狀是anchor box2那樣的。

在這裏插入圖片描述
就是anchor box2的輸出還是一樣的,但anchor box1的pc=0p_c=0,我們不關心其他值的輸出了。

雖然我們把anchor box當成處理兩個對象中點都一樣的情形,但實際上出現這種情形的概率並不高,尤其你用了19×1919 \times 19的格子的時候。

YOLO算法

利用上面所學的知識來介紹一下YOLO算法,先來看下如何定義訓練集。

在這裏插入圖片描述
如果是一個3×33 \times 3的格子,兩個anchor box的話,那麼就有3×3×163 \times 3 \times 16的輸出。

要構造訓練集,需要遍歷9個格子,每個格子都會輸出yy

在這裏插入圖片描述
第一個格子裏面啥都沒有,因此它的輸出應該是上圖右邊這個向量這樣的。
這張圖中大部分格子裏面都沒有物體,除了綠框的這個格子。

在這裏插入圖片描述
假設這兩個anchor box是這樣的,並且anchor box2的交併比更高,因此得到的輸出就是和輸出向量下半部分有關的。

在這裏插入圖片描述

所以遍歷所有的格子,最終得到的輸出大小是3×3×163 \times 3 \times 16

所以訓練集就是這樣的,然後你可以訓練一個卷積神經網絡。

在這裏插入圖片描述
接下來看這個算法是如何進行預測的,
在這裏插入圖片描述
對於左上角這個格子,期望的輸出是兩個pcp_c都是00,此時我們不關心其他值的輸出。而對於綠框的這個格子,期望的輸出是:
在這裏插入圖片描述
第二個anchor輸出的pc=1p_c=1,並且bx,by,bh,bwb_x,b_y,b_h,b_w剛好是紅框那個位置。
下面說明一下非最大值抑制,我們看另外一張圖片。
在這裏插入圖片描述
假設有兩個anchor box,這樣每個格子都會有兩個邊框輸出,其中有個pcp_c更低

在這裏插入圖片描述
假設所有輸出的邊框是這樣的,注意上面有些邊框的大小可以超出所在格子的高度和寬度。

接下來要拋棄所有概率低的預測,
在這裏插入圖片描述
得到了上面這樣的結果,假設你要預測行人、汽車和摩托這三種類別。那麼要做的是,對每個類別,單獨運行非最大值抑制,來處理預測結果是那個類別的邊框。

在這裏插入圖片描述
用非最大值抑制處理汽車類別、行人類別和摩托類別,運行三次來得到最終的預測結果如上。

參考

  1. 吳恩達深度學習 專項課程
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章