MTCNN

MTCNN

原創

2019-10-26 00:00

MTCNN人臉檢測是2016年的論文提出來的，MTCNN的“MT”是指多任務學習(Multi-Task)，在同一個任務中同時學習”識別人臉“、”邊框迴歸“、”人臉關鍵點識別“。

1“金字塔”變換

首先將原始圖片縮放到不同的尺度，形成一個圖像金字塔。這可以解決有的人臉大，有的人臉小，能把在同一尺度之下檢測人臉。

2網絡結構

P-Net是一個全卷積網絡，可以適應任意尺寸的輸入，輸出是還是不是人臉face classification，2維是方便交叉熵損失。

1*1*4代表標定框信息，Facial landmark localization 1*1*10 表示檢測的5個關鍵點。

上圖爲P-Net的結果，我們把圖像金字塔不同尺度的圖片，輸出就會有很多會大小不同的標定框。這個過程中

R-Net

我們把P-Net 的結果通過插值的方式縮放到24*24 的尺寸。輸入到R-Net。這個網絡是優化P-Net檢測的結果，也可以消除誤判。

這是R-Net的輸出結果，可以看到很多多餘的標定框都過濾掉了。

之後我們接入O-Net進行最後的人臉識別和關鍵點檢測。

3損失函數

我們根據網絡的輸出來定義損失函數，網絡人臉判別部分使用交叉熵損失，邊框迴歸和關鍵點檢測部分使用L2損失。

我們把3個部分分配權重，加起來就是總損失。

對P-Net和R-Net更關注框的位置，所以這部分權重相對更大。

對於O-Net更關心關鍵點檢測，同理。

有兩種損失在人臉領域效果較好。

一個是三元組損失Triple Loss

一個是center loss

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.