論文Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

原文地址: Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks
引言:
(部分翻譯)人臉對齊可以被粗糙的分爲兩類方法,基於迴歸和模板適應方法。然而很多研究忽略了人臉檢測與對齊之間的內在聯繫,儘管有工作嘗試結合它們,但也存在很多限制。
在這裏我們提出一種新的框架來整合這兩個人物,使用統一的層級CNNs和多任務學習。提出的CNNs網絡包括三個部分,第一個使用淺層CNN產生候選窗口,然後通過一個更復雜的CNN來拒絕大量沒有臉的窗口來改進,最後用一個更強力的CNN來優化結果並輸出5個臉部特徵位置

圖示
Approach方法:
整體框架:
Stage 1:我們搭建了一個全卷積網絡,稱其爲Proposal Network(P-Net),來獲取候選臉部窗口和邊界框迴歸向量。然後候選框將會基於估算的邊界框向量來校正,然後我們使用非極大值抑制(NMS)來合併搞重複讀的候選框
Stage 2:所有候選框被送到另一個CNN,成爲Refine Network(R-Net),其會拒絕大量錯誤的候選項,並用邊界框迴歸來校正,使用NMS
Stage 3:這個部分和Stage 2相似,但是在此我們旨在用更多的監督(標籤)來標識臉部區域,特別的,網絡會輸出5個臉部特徵地址(兩眼,鼻,兩個嘴角)

這裏寫圖片描述

CNN架構:
使用5x5 代替3x3
使用PReLU作爲非線性激活函數

訓練:
使用了三個任務來訓練CNN,臉/非臉分類,邊界框迴歸,臉部標識定位
預處理:
裁剪大小爲12*12,24*24,48*48大小的圖片(包括pos,neg,part的圖片)
PNet:(網絡結構在上圖)
輸入:圖片(大小12*12),標準化的Bbox座標,標準化的landmark座標 (標準化 即爲相對的座標或者偏移值)
輸出:face classification,標準化的Bbox座標,標準化的landmark座標
RNet,ONet:
輸入:圖片,Bbox,landmark座標,只有圖片大小不同(24*24 和 48*48)
輸出:PNet相同

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章