【DDFD】《Multi-view Face Detection Using Deep Convolutional Neural Networks》

在這裏插入圖片描述
ICMR-2015

International Conference on Multimedia Retrieval

計算機圖形學與多媒體 B 類會議
在這裏插入圖片描述



1 Background and Motivation

在這裏插入圖片描述

Multi-view Face Detection,當前的解決方法可大致分爲3類:

  • Cascade-based(基於 Viola and Jones detector cascade 的改進), VJ 的缺點,fail to detect faces from different angles(side view or partially occluded faces)
  • DPM-based,(deformable part models technique,目標檢測劃時代的鼻祖),缺點,computationally intensive
  • Neural-Network-based

PS: Viola and Jones detector cascade 創新點如下,Haar 特徵的快速計算方法——積分圖,有效的分類器學習方法——AdaBoost,以及高效的分類策略——級聯結構的設計(複雜度排序分類器,降低輸入窗口的數量)
在這裏插入圖片描述
參考:
走近人臉檢測(2)——VJ人臉檢測器及其發展
長文乾貨!走近人臉檢測:從?VJ?到深度學習(上)


傳統的 learning algorithms(SVM,Boosting)和 image features(HOG or Haar wavelets)are not strong enough to capture faces of different poses,導致了 hopelessly inaccurate,作者說,來深度學習吧,哈哈哈哈

引出了 RCNN 、Overfeat、SPPNet 那一套,缺點是速度太慢!

作者用深度學習的方法,摒棄掉 RCNN 的 segmentation(selective search), bounding-box regression, or SVM classiers 減速模塊,提出 Deep Dense Face Detector (DDFD), 來檢測 faces in a wide range of orientations

2 Advantages / Contributions

  • 提出 DDFD(Deep Dense Face Detector)
    • not require pose/landmark annotation(和用了這些信息的模型旗鼓相當),
    • single model(相比於 R-CNN based method 簡單直接)
  • 能 detect faces from different angles,能 handle occlusion to some extent
  • 分析數據集得出:更好的正樣本採樣策略和更 sophisticated 的數據增廣方法,能帶來更好的效果

3 Method

DDFD 的設計理念

  • DNN 包辦 classification 和 feature extraction(也是DNN 相比於 傳統 ML 的優勢)
  • 簡化 DNN,以 minimize the computational complexity

輸入 resize to 227x227,模型 similar AlexNet(5 conv,3 fc),最後用 sigmoid 接 fc,訓練好模型後,配合 sliding window 來檢測人臉,之後 NMS 調整進行 accurately localize (縮放圖像,截取 227x227 來應對大小不同的臉)


face rotation 可分爲 in planeout plane rotation,具體如下
在這裏插入圖片描述
參考:https://www.researchgate.net/figure/n-plane-roll-and-out-of-plane-pitch-yaw-rotations_fig1_279394366/actions

  • in plane,就是旋轉照片
  • out of plane,就是照片裏的人動了 pitch (up and down),yaw (left to right)

在這裏插入圖片描述
作者發現,上圖中,up-right face 得分最高,隨着 in plane rotation,得分下降!
同樣的事情也發生在 out of plane rotation 中

在這裏插入圖片描述
在這裏插入圖片描述
作者分析了數據集
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
可以通過三種旋轉的直方圖分佈看出,大部分的樣本在 30 度旋轉之內,接近正臉,這樣難怪 up-right face 的檢測得分那麼高!訓練中,正負樣本差距 200 倍,一個 mini-bath 是 128,如果 random sample,一個 batch 大概才 2 個正樣本,這當然不利於區別 face 和 non-face,作者強行在每個 batch 中設定,正負樣本 1:3

還有個問題,就是正樣本的旋轉角度分佈不均勻,如何確保 all categories of the training examples have similar chances to contribute in optimizing the CNN. 這和抽樣策略息息相關,所以作者說 better sampling strategies 能進一步提升 DDFD 的效果

作者進一步分析 fig 1 的遮擋情況,發現漏檢或者效果不好,most of the face images in the AFLW dataset are not occluded, which makes it difficult for a CNN to learn that faces can be occluded.(監督學習當然不能奢求模型無師自通)

所以作者得出結論,more sophisticated data augmentation 能實現 better results

4 Experiments

4.1 Datasets

  • AFLW dataset,21 K images,24k face annotation
    作者 sample the sub-window,通過 IoU 篩選(0.5)來擴充正樣本數量,最終 200 k positive,20 million negative
  • PASCAL Face dataset,851 images and 1341 annotated faces
  • AFW,205 images with 473 annotated faces,
  • FDDB dataset,5171 annotated faces with 2846 images

4.2 Strategies Comparision

1)scale factor
在這裏插入圖片描述
在 PASCAL Face dataset 數據上,先把圖片放大 5 倍,這樣 227x227 的 window 能檢測到原圖中,227/5 大小的人臉了,然後在放大5倍的圖片上對比不同縮小比例的 P-R 曲線,fsfs 越小表示縮小的程度越小,能檢測到更小的人臉,上圖可以看出,效果差不多,作者後面都用 fs=0.7937fs = 0.7937

2)NMS strategies

在這裏插入圖片描述
NMS-avg 效果更好

3)bounding boxes regression
在這裏插入圖片描述
不要效果更好,作者分析是 the mismatch between the annotations of the training set and the test set.造成,如下圖
在這裏插入圖片描述
左邊訓練集,右邊測試集,紅框是作者算法的結果,這個結果相比 gt 而言,IoU 小於 0.5,算是 fp!所以不要 bbox regression 會更好,因爲加了更強的約束和修正,會讓模型對訓練集更過擬合,而且會帶來漏檢!

4.3 Comparison with R-CNN

在這裏插入圖片描述
FT 是指 fine tuning 的意思,一個在 PASCAL-VOC 目標檢測數據集上 fine-tune,一個在人臉數據集上 fine-tun,可以看出 R-CNN 配合 BBox 效果有顯著提升,但還是不及作者的 DDFD!

作者分析,可能是 R-CNN 中 SS 策略不好,可能漏檢,然後 SS 和 bbox 的配合不好!

4.4 Comparisons with state-of-the-art

在這裏插入圖片描述
在這裏插入圖片描述
其它方法(eg DPM or HeadHunter)運用了額外的標籤信息(pose annota-
tion or information about facial landmarks)

5 Conclusion(own)

  • 正樣本分佈直方圖得出來的結論真的很有理有據(更好的抽樣方法,數據增廣增加數據的多樣性能帶來更好的效果),前者在論文 《Libra R-CNN: Towards Balanced Learning for Object Detection》 中也有體現(進行了採用策略的改進)
  • 在這裏插入圖片描述
    這句話很精髓
  • 算法離不開數據集!對數據集的挖掘很到位,數據集和模型的表現分析的也很透徹!應用創新
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章