論文《A Convolutional Neural Network Cascade for Face Detection》筆記

論文：A Convolutional Neural Network Cascade for Face Detection.pdf

實現：https://github.com/anson0910/CNN_face_detection

該論文發表於2015年CVPR上，作者提出了一種級連的CNN網絡結構用於人臉識別，論文的主要貢獻有以下四點：

提出了一種級連的CNN網絡結構用於高速的人臉檢測。
設計了一種邊界校訂網絡用於更好的定位人臉位置。
提出了一種多分辨率的CNN網絡結構，有着比單網絡結構更強的識別能力，和一個微小的額外開銷。
在FDDB上達到了當時最高的分數。

其實論文的主體框架依然是基於V-J的瀑布流思想，不同以往的是級連了CNN網絡（由於論文閱讀量有限，不知是否已有前人做出了此類貢獻），整個網絡的處理流程如下圖所示：

可以看出，整個處理流程裏包含了六個網絡和三次NMS，六個網絡按順序分別是12-net，12-calibration-net，24-net，24-calibration-net，48-net，48-calibration-net。

包含三個二分類網絡用於分類其是否爲人臉，另外三個calibration網絡用於矯正人臉框邊界。

其中12-net，24-net和48-net的網絡結構如下圖所示：

這三個網絡的結構大致相同，不同之處在於其讀入的圖片分辨率和網絡的複雜度，其是逐級遞增的，瞭解V－J框架不難理解其實現原理，前面的簡單網絡拒絕絕大部分非人臉區域，將難以分辨的交由下一級更復雜的網絡以獲得更準確的結果，這裏着重講其多分辨率的圖片讀入方式。

要想在CNN結構下實現V-J瀑布級連結構，就要保證瀑布的前端足夠簡單並有較高的召回率且能夠拒絕大部分非人臉區域，將圖片縮放可以滿足需求，比例爲12/F，24/F，48/F，F爲檢測人臉的最小尺寸，這樣對於一張800*600的圖片，檢測尺寸爲40*40的人臉，窗口移動步伐爲4個像素，那麼會產生（（800＊12/40－12）／4+1）＊（（600*12/40－12）／4＋1）＝2494個窗口。不僅使得窗口數量變少而且窗口的縮放也使前期的CNN結構更加簡單，實現了級連的思想。

另外在24-net和48-net的全連接層還會連接該圖像縮放後在前一層網絡的全連接輸出，這麼做的目的是爲了檢測更小的人臉，雖然會帶來額外開銷，但總體來說，該開銷可忽略不計，但是其可以較明顯的提高識別率。

12-calibration-net，24-calibration-net，48-calibration-net的結構如下圖所示：