輕量級人臉檢測算法實現專題之LFFD:A Light and Fast Face Detector for Edge Devices

LFFD:A Light and Fast Face Detector for Edge Devices

Github star:919

參數量:6.1 M

一筐款通吃大小目標、支持各種設備的人臉檢測器

paper:https://arxiv.org/abs/1904.10633

Github:https://github.com/YonghaoHe/A-Light-and-Fast-Face-Detector-for-Edge-Devices #MXNet

https://github.com/aoru45/LFFD-Pytorch        #pytorch

圖2。提出的網絡的總體架構。主幹有25個卷積層,分爲四部分:小部分、小部分、中部分和大部分。沿着主幹線,有8個損失分支負責檢測不同尺度的人臉。整個主幹網僅由conv 3×3、conv 1×1、ReLU和剩餘連接組成。          

 

 LFFD:一種用於邊緣檢測的輕量快速人臉檢測器                 

這篇文章是來自 北京理工大學自動化研究所模式識別國家實驗室信息技術研究室

Y onghao He∗1,2, Dezhong Xu∗1, Lifang Wu1, Meng Jian1, Shiming Xiang2, and Chunhong Pan2
1Faculty of Information Technology, Beijing University of Technology
2National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences
[email protected],[email protected],[email protected],
[email protected],{smxiang, chpan}@nlpr.ia.ac.cn

Abstract

人臉檢測技術作爲一項基礎性的應用技術,一直部署在存儲空間有限、計算能力低的邊緣設備上。介紹了一種用於邊緣檢測的輕量快速人臉檢測儀。該方法是無錨的,屬於一級分類。具體來說,我們重新思考了在人臉檢測的背景下,感受野(RF)有效感受野(ERF)的重要性。本質上,某一層神經元的RFs在輸入圖像中有規律地分佈,這些RFs是自然的“錨”。該方法結合了RF錨和合適的RF步長,理論上可以檢測出大範圍的100%覆蓋的連續人臉尺度。深入瞭解ERF與人臉尺度之間的關係,是一種有效的單階段檢測方法。骨幹網具有8個檢測分支和公共層,計算效率高。在流行的基準上進行了全面而廣泛的實驗:寬面和FDDB。針對面向應用的場景,提出了一種新的評估方案。在新方案下,該方法具有較高的精度(寬面Val/檢驗-簡單0.910/0.896,中等0.881/0.865,硬0.780/0.770,FDDB-不連續0.973,連續0.724)。引入多個硬件平臺來評估運行效率。該方法具有較快的推理速度(NVIDIA TITAN Xp:131.45 FPS,640×480;NVIDIA TX2:136.99 PFS,160×120;Raspberry Pi 3 Model B+:8.44 FPS,160×120),模型大小爲9mb。

 1. Introduction

人臉檢測是計算機視覺中一個由來已久的問題。在實踐中,它是一些與人臉相關的應用的先決條件,例如人臉對齊[14]和人臉識別[31]。除此之外,人臉檢測器通常部署在邊緣設備上,如移動電話、IP攝像頭和物聯網(IoT)傳感器。這些設備內存有限,計算能力低。在這種情況下,對人臉檢測的精度和速度提出了更高的要求。

目前最先進的面部探測器已經通過利用預先訓練過的重骨幹,如VGG16[27]、Resnet50/152[7]和Densenet121[10],在定罪基準寬臉[33]上實現了相當高的精確度。我們在更寬的面上研究了前5種方法,並在表1中給出了它們的精度。可以看出,這些方法的精度與實際應用中難以察覺的邊緣間隙相似。用更復雜、更重的骨幹來進一步提高準確性是困難的,也是不現實的。在我們看來,更好地平衡準確度和延遲對於將人臉檢測應用到更適用的領域是至關重要的。

人臉檢測是近十年來發展迅速的一般目標檢測分支。Viola Jones 早期工作[29]提出了一個經典的檢測框架——具有手工製作功能的級聯分類器。其著名的追隨者之一是聚合頻道特性(ACF)[4,32],它可以有效地利用頻道特性。雖然上述方法可以獲得較快的運行速度,但是它們依賴於手工製作的特徵,並且沒有進行端到端的訓練,導致檢測精度不高。

近年來,基於卷積神經網絡(CNN)的人臉檢測技術[36、39、16、3、28、13、30、34、9、38、40、20、37]取得了很大的進展,部分原因在於較寬的人臉基準的成功。這些方法大致可分爲兩類:兩階段法和一階段法。兩階段方法[13,30]包括方案選擇和定位迴歸,主要來源於R-CNN系列[6,5,26]。然而,單階段方法[9,38,20,37,28,3,16,36]將分類和邊界盒(bbox)迴歸相結合,總是同時實現基於錨和多尺度的檢測。對於大多數單階段方法,錨定設計和匹配策略是關鍵組件之一。爲了提高計算精度,這些方法提出了基於重骨幹的複雜模塊。儘管上述方法可以達到最新的結果,但它們可能無法適當地平衡準確性和延遲。

本文提出了一種用於邊緣檢測的輕型快速人臉檢測系統(LFFD),在檢測精度和運行效率上達到了很好的平衡。該方法受到了單級多尺度目標檢測方法SSD[17]的啓發,對其他人臉檢測方法也有一定的啓發[16,28,38]。SSD的一個特點是爲每個檢測分支手動設計預定義的錨箱。這些長方體總是有不同的大小和縱橫比,以覆蓋具有不同比例和形狀的對象。因此,錨定在大多數單階段檢測方法中起着重要的作用。對於一些人臉檢測器[38,40,28,16],複雜的錨定策略是貢獻的關鍵部分。然而,基於錨的方法可能面臨三個挑戰:1)錨匹配無法充分覆蓋所有的人臉尺度。雖然這可以被解除,但它仍然是一個問題;2)通過閾值IOU(交集對並集)來確定將錨與地真bboxes匹配。閾值是經驗設定的,難以對其影響進行實證研究;3)不同尺度的錨定數量依賴於經驗,可能導致樣本不平衡和重複計算。

在我們看來,特徵圖中神經元的射頻是固有的和自然的“錨”。射頻可以輕鬆應對上述挑戰。首先,在一定的RF尺度範圍內可以預測人臉的連續尺度,而不是錨定方法中的離散尺度。其次,匹配策略是明確的,即當且僅當RF的中心落在groundtruth bbox中時,RF才與groundtruth bbox匹配。第三,RFs的數目是自然固定的,並且它們在輸入圖像中是規則分佈的。此外,通過對ERF的深入理解,我們對人臉尺度和RF尺度的配對進行了定性分析,得到了一個具有8個檢測分支的有效主幹。主幹網僅由公共層(conv3×3、conv1×1、ReLU和剩餘連接)組成,比VGG16[27]、Resnet50[7]和Densenet121[10]輕得多。因此,最終的模型只有2.1M的參數(相對於VGG16-138.3M和Resnet50-25.5M),並且達到了更高的精度和運行速度,這使得它適合於邊緣設備。

總之,本文的主要貢獻包括:

•研究了RF、ERF與人臉檢測的關係。相關的理解推動了網絡設計。

•我們引入射頻以克服以前基於錨的策略的缺點,從而產生無錨方法。

•我們提出了一種新的具有公共層的主幹網,用於精確快速的人臉檢測。

•在多個硬件平臺上對基準寬面和FDDB進行了廣泛而全面的實驗,以堅定地證明所提出的邊緣設備方法的優越性。

2. Related Work

自十年前以來,人臉檢測引起了人們的廣泛關注。

早期的作品早期的人臉檢測器利用手工製作的特徵和級聯分類器來檢測滑動窗口形式的人臉。Viola Jones人臉檢測器[29]使用Adaboost和類似Haar的特徵來區別地訓練人臉分類器。隨後,利用更有效的手工製作功能[21、41、32]和更強大的分類器[1、22]成爲主流。這些方法都不是端到端訓練,分別對待特徵學習和分類器訓練。雖然獲得了較快的運行速度,但仍不能獲得滿意的精度。

基於CNN的方法目前基於CNN的人臉檢測方法主要有兩級(6,5,26)和一級(17,23,24,25)的一般目標檢測。[13]和[30]都基於更快的R-CNN[26],將原來更快的R-CNN應用於人臉檢測。Zhang等人。[35]提出了一種內級聯結構的級聯CNN用於粗到細人臉檢測。目前,單級人臉檢測技術占主導地位。MTCNN[34]以滑動窗口的方式執行人臉檢測,並依賴於圖像金字塔。HR[9]在某種程度上是MTCNN的高級版本,也需要圖像金字塔。圖像金字塔具有速度慢、存儲成本高等缺點。S3FD[38]在設計檢測分支時考慮了射頻,提出了一種提高命中率的錨匹配策略。在[40]中,Zhu等人。通過提出一種魯棒的錨生成和匹配策略來檢測小人臉。研究結果表明,錨定相關策略對人臉檢測至關重要。在S3FD[38]之後,金字塔盒[28]使用低級特徵金字塔層(LFPN)增強主幹,以實現更好的多尺度檢測。SSH[20]構造了三個與上下文模塊協作的檢測模塊,用於尺度不變的人臉檢測。DSFD[16]具有特徵增強模塊、早期層監控和改進的錨匹配策略以更好地初始化的特點。S3FD、PyramidBox、SSH和DSFD使用VGG16作爲骨幹,導致模型大,計算效率低。Facebox[37]旨在通過快速減小輸入圖像的大小,使面部檢測器實時運行。具體來說,它在四層(兩個卷積層和兩個池層)之後達到32的大跨距。雖然facebox的運行速度很快,但它放棄了對小人臉的檢測,導致在較寬的人臉上的精度相對較低。與傳統的人臉檢測方法不同,該方法對小人臉檢測的處理非常細緻,同時實現了快速的運行速度和大範圍的覆蓋。可以觀察到,最新技術方法使用的網絡往往變得更復雜和更重。在我們看來,以犧牲運行速度爲代價來獲得微小的精度改進是不適合實際應用的。

3. Light and Fast Face Detector

在本節中,我們首先回顧了射頻的概念及其與Sec中人臉檢測的關係。3.1。然後是秒。3.2描述了使用RFs作爲天然“錨”的合理性和優勢。隨後,提議的網絡的細節在Sec中描述。3.3。最後,提出了Sec網絡培訓的規範。3.4。

3.1. Revisit RF in the Background of Face Detection

本文首先簡要介紹了射頻及其特性。RF是腦圖像的一個定義區域,它影響相應神經元的激活。RF決定神經元在原始輸入中能看到的範圍。直觀地說,如果目標被某個射頻包住,則可以很好地檢測到目標,且概率很高。一般來說,淺層神經元的RFs較小,深層神經元的RFs較大。RF的一個重要特性是,每個輸入像素對神經元的激活貢獻不同[18]。具體來說,位於RF中心附近的像素具有更大的影響。當像素遠離中心時,影響逐漸減小。這種現象被稱爲有效感受野(ERF)。ERFs固有地存在於神經網絡中,呈現高斯分佈。因此,使目標物體處於射頻中心也很重要。所提出的LFFD得益於上述觀察結果。

人臉檢測是一般目標檢測的一個著名分支,具有一定的特點。首先,大臉蛋由於其不可移動的部分,如眼睛、鼻子和嘴巴,幾乎是僵硬的。雖然有面部表情變化、頭髮遮擋等不受約束的情況,但大臉還是可以分辨的。其次,小臉蛋和大臉蛋必須區別對待。微小的臉總是有無法識別的外觀(一個例子如圖1所示)。人類甚至很難通過只看到一張小臉的面部區域來做出面部/非面部的決定,基於CNN的分類器也是如此。隨着更多的上下文信息,包括脖子和肩膀,微小的臉變得更容易識別。詳細討論可參考[9]。

 

圖1。小臉檢測。左上角的圖像只包含一個面,右上角的圖像用足夠的上下文信息描述一個面。不難看出,隨着上下文信息的逐漸增多,人臉變得更加容易識別。下半部分描述了RF與ERF檢測微小人臉的關係。

基於以上理解,不同大小的人臉需要不同的RF策略:

•對於小/小臉,ERFs必須覆蓋人臉以及足夠的上下文信息;

•對於中臉,ERFs只需要包含很少的上下文信息;

•對於大臉,僅保留在RFs中就足夠了。

這些策略指導我們設計一個有效的主幹。

3.2. RFs as Natural “Anchor”

一級探測器的主要特點是預先定義bbox錨。爲了檢測不同的對象,錨具有多種縱橫比和大小。這些錨始終是冗餘定義的。在人臉檢測方面,使用1:1長寬比錨定是合理的,因爲人臉是近似正方形的,這在[38,37]中也提到過。如果核的寬度和高度相等,RFs的形狀也是正方形的。該方法將RFs視爲天然的“錨”。對於同一層的神經元,它們的rf在輸入圖像中有規律地平鋪。一旦網絡建成,RFs的數量和大小就固有地決定了。

對於匹配策略,該方法採用了一種簡潔明瞭的方法,即當且僅當RF的中心落在groundtruth bbox中時,RF與groundtruth bbox匹配,而不是閾值IOU。在典型的基於錨的方法S3FD[38]中,Zhang等人。分析了電流變液的影響,特別是對微小面進行了錨定加固設計。儘管提高了錨的命中率,S3FD仍然會導致錨的不平衡問題(小面錨太多),必須通過額外的方法來解決。然而,該方法通過控制射頻步幅,理論上可以達到100%的人臉覆蓋率。此外,射頻與我們的匹配策略可以自然地處理連續的臉尺度。例如,100像素的RFs能夠預測20像素到40像素之間的面。這樣就大大緩解了錨杆失穩問題,對各標度的工作面進行了同等的處理。

基於上述討論,我們沒有創建任何錨,並且所提出的方法沒有真正地將錨與groundtruth bboxes匹配。因此,建議的方法是無錨。

3.3. Network Architecture

根據以上分析,我們可以設計一個專門的人臉檢測主幹。有兩個因素決定了丟失分支的位置-RFs的大小和跨距。RFs的大小保證了學習到的人臉特徵是健壯和可識別的,而步幅保證了100%的覆蓋率。圖2示出了所述網絡的總體架構。該方法可以檢測大於10像素的人臉(人臉大小由長邊表示),因爲寬的人臉基準數據集需要檢測大於10像素的人臉。可以看出,提出的主幹線是一個階段,由四部分組成。關於損失分支的具體信息見表2。

 表2。有關推薦網絡的詳細信息。

小部分有10個卷積層。前兩層使用步幅4和步幅2對輸入進行下采樣。因此,本部分中的其它卷積層的RFs在步驟4中。一個關鍵的原則是:在保持100%的面部覆蓋率的同時,儘可能快地減少輸入。這一部分有兩個損失分支。損失分支1源於對於連續面標度10-15,RF尺寸爲55的c8。類似地,對於連續面標度15-20,損耗支路2來自RF尺寸爲71的c10。顯然,我們可以確保至少兩個RFs的中心可以落在最小的面上,從而實現100%的覆蓋率。有一種特殊情況,一箇中心可能同時落在兩個以上的面上,在這種情況下,相應的RF被直接忽略。正如我們在第二節討論過的。3.1,微小的人臉需要更多的上下文信息,而ERFs比RFs小。爲此,我們使用的RFs比平均面部比例要大得多。分支1和分支2的RFs和平均面部比例分別爲4.4和4.0。在表2中,這類比率從4.4逐漸降低到1.3,因爲較大的面需要較少的上下文信息。在骨幹網中,所有卷積層的核大小均爲3×3。然而,分支卷積層的核大小是1×1,這並不改變RFs的大小。在每個分支中,有兩個分支,一個用於人臉分類,另一個用於bbox迴歸。

小部分負責20-40和40-70兩個連續的面標。該部分中的第一卷積層c11將特徵映射下采樣2×。對於隨後的部分,它們的第一卷積層完成相同的功能。在很小的一部分中,與小部分8相比,RF的增加速度變爲16。因此,需要較少的卷積層來達到目標射頻大小。中間部分類似於小部分,只有一個分支。

在主幹的末端,大部分有七個卷積層。由於特徵映射較小,這些層容易在不增加過多計算增益的情況下擴大檢測範圍。這部分有三個分支。由於大的人臉更容易被發現,RFs和平均人臉尺度的比率相對較小。

該方法可以在一次推理中檢測出10到560像素的大範圍人臉。整個主幹網僅由conv 3×3、conv 1×1、ReLU和剩餘連接組成。主要原因是conv 3×3和conv 1×1由於應用最爲廣泛,因此被cuDNN∗、ncnn∗、mace‡和paddle mobile∗等推理庫高度優化。雖然BN[11]已經成爲許多網絡的標準配置,但由於其推理速度慢,我們沒有采用它作爲組件。我們比較了原始骨幹網和BN骨幹網的速度:原始骨幹網的速度可以達到7.6毫秒,*BN骨幹網只有8.9毫秒,因此速度慢了17%(分辨率:640×480,硬件:泰坦X(帕斯卡)。我們不再使用BN,而是訓練更多的迭代以獲得更好的收斂性。如圖2所示,在每個部分中,剩餘的連接被並排放置以便於訓練深骨幹。前兩部分中所有卷積層的濾波器數目爲64。我們不增加濾波器,因爲前兩部分具有相對較大的特徵映射,這在計算上是昂貴的。然而,最後兩部分中的濾波器數目可以增加到128個,而不需要太多額外的計算。更多詳情見表2。

3.4. Training Details

在本小節中,我們將從幾個方面描述與培訓相關的細節。

數據集和數據擴充。該方法在寬人臉基準的訓練集[33]上進行訓練,包括12880幅有效人臉數超過150000的圖像。小於10像素的面將直接丟棄。數據增強是提高系統魯棒性的重要手段。具體策略如下:

•顏色失真,如隨機光噪聲、隨機對比度、隨機亮度等。更多信息請參考[8,15]。

•對每個比例進行隨機抽樣。在所提出的網絡中,有8個損失分支,每個分支負責一定的連續規模。因此,我們必須保證:1)每個分支的面數大致相同;2)每個分支的面可以以相同的概率進行採樣。爲此,我們首先隨機選擇一個圖像,然後隨機選擇圖像中的一個人臉。第二,選擇一個連續的面部比例,並在該比例內以及整個圖像和其他面部框內隨機調整面部大小。最後,在選定的人臉中心裁剪640×640的子圖像,用黑色像素填充外部空間。

•隨機水平翻轉。我們以0.5的概率翻轉裁剪後的圖像。

 

scale 20-40, the corresponding gray scales are [18,20] and
[40,44]. Faces that fall in gray scales are also ignored by
the corresponding branch. For bbox regression, we adopt
L2 loss directly. The regression groundtruth is defined as: 

難例挖掘。對於每個分支,負射頻錨定通常多於正射頻錨定。爲了穩定和更好的訓練,只有一個分數負RF錨用於反向傳播:我們對所有負錨的損失值進行排序,只選擇最重要的錨進行學習。正錨與負錨之比不超過1:10。從經驗上看,硬負開採可以帶來更快、更穩定的收斂。 

訓練參數。我們用xavier方法初始化所有參數,從頭開始訓練網絡。輸入先減127.5,然後除以127.5。優化方法爲動量爲0.9、質量衰減爲零、批量爲32的SGD。零權值衰減的原因是該網絡的參數個數遠小於VGG16。因此,沒有必要懲罰。初始學習率爲0.1。我們訓練1500000次迭代,並通過在600000、1000000、1200000和1400000次迭代中乘以0.1來降低學習率。兩臺英偉達GTX1080TI,訓練時間約5天。我們的方法是使用MXNet[2]實現的,源代碼是發佈的。

4. Experiments

在這一部分中,我們進行了全面而廣泛的實驗。首先,提出了一種新的評價方案,給出了基於基準的評價結果。其次,分析了多平臺的運行效率。第三,我們進一步研究了計算量和存儲內存開銷,引入了計算效率率。

4.1. Evaluation on Benchmarks 基準評價

在本小節中,一個新的評估模式將在開頭描述。新的模式稱爲原始模式上的單一推理(SIO)。SIO的提出是爲了改革現實應用的評估程序。我們注意到

圖3。FDDB的評估結果。爲清楚起見,此處不顯示許多其他已發佈的方法

我們注意到在一些實際的場景中,延遲和準確度同樣重要。傳統的評估過程涉及一些複雜的方法,如翻轉和圖像金字塔,以獲得更高的精度。然而,這樣做的時間消耗是不可接受的。爲此,SIO可以很容易地通過以下方式操作:1)保持圖像的原始大小作爲網絡輸入;2)網絡只對原始圖像進行一次推理。SIO的輸出被輸入到隨後的度量中。 

在實驗中,我們必須根據SIO模式再現結果。因此,我們收集了平均數據和模型的比較方法。最後,採用以下方法進行比較:DSFD[16](Resnet152主幹)、pyramibox[28](VGG16主幹)、S3FD[38](VGG16主幹)、SSH[20](VGG16主幹)和facebox[37]。DSFD和pyramibox是最先進的方法。提出的方法名爲LFFD。LFFD和Facebox不依賴現有的預訓練後腰,而是從頭開始訓練。我們在兩個基準上評估所有方法:FDDB[12]和WDIER FACE[33]。

FDDB數據集。FDDB包含2845個圖像,5171個無約束面。有兩種類型的評分:離散評分和連續評分。第一個評分標準是通過閾值IOU得到的。第二個標準直接使用IOU比率。我們在圖3中顯示了針對上述五種方法的FDDB上的LFFD的最終評估結果。兩種評分類型的總體表現都顯示出相似的趨勢。DSFD、pyramibox、S3FD和SSH可以在具有邊緣間隙的情況下實現高精度。與前四種方法相比,本文提出的LFFD方法的精度略低,但明顯優於facebox方法。結果表明,LFFD算法在檢測無約束人臉方面具有優越性。

WIDER FACE dataset.。在較寬的面上,有32203個圖像和393703個標記面。這些人臉在比例、姿勢和遮擋方面都有很大的變化。到目前爲止,較寬的人臉是最廣泛使用的人臉檢測基準。所有圖像隨機分爲三個子集:訓練集(40%)、驗證集(10%)和測試集(50%)。此外,根據檢測的難易程度,將每個子集中的圖像分爲易、中、難三級。粗略地說,大量的小/小臉位於中硬部位。groundtruth註釋僅可用於培訓和驗證集。所有比較的方法都是在訓練集上訓練的。我們分別在表3和表4中報告驗證集和測試集的結果。

可以進行一些觀察。首先,與原始結果相比,DSFD、pyramibox、S3FD和SSH的性能下降明顯。一方面,僅通過一次推理就很難達到較高的精度。另一方面,這些技巧確實可以顯著地提高準確性。其次,pyramibox在硬部件上取得了最好的效果,而SSH在硬部件上的性能卻顯著下降,主要是由於忽略了一些微小的面。第三,facebox不能在ediumandhardparts上獲得理想的結果。SinceFaceBoxes會快速產生大的32步,這意味着很難檢測到小於32像素的人臉。爲了更清楚,我們對面板進行了額外的實驗,稱爲面板3.2×,其中輸入圖像的兩邊都放大了3.2×。結果表明,在中硬零件上的試驗結果有了顯著的提高。簡單零件的性能下降是由於某些面的大小調整過大而無法檢測到。面盒和麪盒的結果在一定程度上表明,面盒不能覆蓋大範圍的面。第四,所提出的方法LFFD始終優於facebox,儘管與現有方法有差距。此外,LFFD優於SSH,後者使用VGG16作爲硬部件上的主幹。

 

4.2. Running Efficiency 執行效率

在本小節中,我們分析了所有方法在三個不同平臺上的運行速度。各平臺及相關庫信息見表5。我們使用batchsize 1和一些常見的分辨率進行測試。爲了公平比較,此處使用FaceBoxes3.2×而不是FaceBoxes。運行速度以ms和相應的FPS爲單位進行測量。最終結果見表6、7和8。在表6中,我們還添加了VGG16和Resnet50以進行充分的比較。SSH和S3FD基於VGG16,速度與VGG16相似。儘管基於VGG16,但由於額外的複雜模塊,pyramibox的速度要慢得多。DSFD可以達到最先進的精度,但它的運行速度最慢。提出的LFFD在3840×2160下運行最快,FaceBoxes3.2×在其它三種分辨率下運行速度最高。同最開始的三種方法比LFFD和FaceBoxes3.2×都能達到甚至超過實時運行速度。上述以運行速度爲代價的先進方法追求更高精度的趨勢得到了明確的驗證。

 

 

 

TX2和Raspberry-Pi 3是計算能力較低的邊緣器件。DSFD、pyramibox、S3FD和SSH速度太慢或無法在這兩個平臺上運行。因此,我們僅在表7和表8中的較低分辨率下評估提議的LFFD和FaceBoxes3.2×。結果表明,除了覆盆子Pi 3上640×480的情況外,LFFD比FaceBoxes3.2×快。在低分辨率160×120和320×240下,LFFD能比FaceBoxes3.2×更好地利用ncnn的優化。 

 

4.3. Parameter, Computation and Model Size

本小節從參數、計算和模型尺寸的角度對比較方法進行了研究。邊緣設備總是有有限的存儲存儲器。有必要考慮面部探測器的內存使用情況。參數的數量與模型的大小密切相關。然而,參數越少並不意味着計算量越少。在[19]之後,我們使用觸發器來測量分辨率爲640×480的計算。所有信息見表9。

對於最新的方法DSFD和pyramibox,它們有大量的參數和觸發器。所提出的LFFD和FaceBoxes3.2×具有適於部署在邊緣設備上的光網絡。爲了進一步證明所建議網絡的效率,我們定義了一個新的度量:

 其中t表示運行時間。enet反映了網絡的計算效率(越大,效率越高),可以在特定平臺上以一定的分辨率進行計算。我們在三個平臺(LFFD與FaceBoxes3.2×)上,以640×480計算LFFD和FaceBoxes3.2×的度量:

•1.22G/ms與TITAN Xp上的0.42G/ms相比;

•0.14G/ms與TX2上的0.04G/ms相比;

•0.0022G/ms與覆盆子PI3上的0.00088G/ms相比;

顯然,所提出的網絡具有更高效的計算,這說明了計算機網絡設計的優越性

5. Conclusion

本文介紹了一種輕量快速的人臉檢測方法,該方法能很好地平衡準確度和延時。通過對人臉檢測背景下的RF進行深入反思,提出了一種無錨方法來克服基於錨方法的缺陷。該方法將RFs視爲自然的“錨”,可以覆蓋連續的人臉尺度,命中率接近100%。在研究了ERFs與面部尺度的本質關係之後,我們精心設計了一個簡單而高效的八個檢測分支網絡。該網絡由具有較少濾波器的公共構建塊組成,推理速度快。爲了充分分析該方法,進行了全面而廣泛的實驗。實驗結果表明,該方法具有模型尺寸小、計算效率高等優點,是一種很好的邊緣器件候選方法。

References
[1] S. C. Brubaker, J. Wu, J. Sun, M. D. Mullin, and J. M. Rehg.
On the design of cascades of boosted ensembles for face de-
tection. International Journal of Computer Vision, 77:65–86,
2008. 2
[2] T. Chen, M. Li, Y . Li, M. Lin, N. Wang, M. Wang, T. Xiao,
B. Xu, C. Zhang, and Z. Zhang. Mxnet: A flexible and effi-
cient machine learning library for heterogeneous distributed
systems. arXiv:1512.01274, 2015. 6
[3] C. Chi, S. Zhang, J. Xing, Z. Lei, S. Z. Li, and X. Zou. Selec-
tive refinement network for high performance face detection.
arXiv:1809.02693, 2018. 1, 2
[4] P . Dollr, R. Appel, S. Belongie, and P . Perona. Fast feature
pyramids for object detection. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 36(8):1532–1545, 2014.
2
[5] R. Girshick. Fast r-cnn. In Proceedings of IEEE Interna-
tional Conference on Computer Vision, pages 1440–1448,
2015. 2
[6] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich fea-
ture hierarchies for accurate object detection and semantic
segmentation. In Proceedings of IEEE Conference on Com-
puter Vision and Pattern Recognition, pages 580–587, 2014.
2
[7] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In Proceedings of IEEE Conference
on Computer Vision and Pattern Recognition, pages 770–
778, 2016. 1, 2
[8] A. G. Howard. Some improvements on deep convolutional
neural network based image classification. arXiv:1312.5402,
2013. 5
[9] P . Hu and D. Ramanan. Finding tiny faces. In Proceedings
of IEEE Conference on Computer Vision and Pattern Recog-
nition, pages 951–959, 2017. 2, 3
[10] G. Huang, Z. Liu, L. van der Maaten, and K. Q. Weinberger.
Densely connected convolutional networks. In Proceedings
of IEEE Conference on Computer Vision and Pattern Recog-
nition, pages 4700–4708, 2017. 1, 2
[11] S. Ioffe and C. Szegedy. Batch normalization: Accelerating
deep network training by reducing internal covariate shift.
arXiv:1502.03167, 2015. 5
[12] V . Jain and E. Learned-Miller. Fddb: A benchmark for face
detection in unconstrained settings. Technical report, Uni-
versity of Massachusetts, Amherst, 2010. 7
[13] H. Jiang and E. Learned-Miller. Face detection with the
faster r-cnn. In Proceedings of IEEE International Confer-
ence on Automatic Face & Gesture Recognition, pages 650–
657, 2017. 2
[14] X. Jin and X. Tan. Face alignment in-the-wild: A sur-
vey. Computer Vision and Image Understanding, 162:1–22,
2017. 1
[15] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet
classification with deep convolutional neural networks. In
Proceedings of Advances in Neural Information Processing
Systems, pages 1097–1105, 2012. 5
[16] J. Li, Y . Wang, C. Wang, Y . Tai, J. Qian, J. Yang, C. Wang,
J. Li, and F. Huang. Dsfd: dual shot face detector. In Pro-
ceedings of IEEE Conference on Computer Vision and Pat-
tern Recognition, 2019. 1, 2, 3, 6
[17] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y .
Fu, and A. C. Berg. Ssd: Single shot multibox detector. In
Proceedings of European Conference on Computer Vision,
pages 21–37, 2016. 2
[18] W. Luo, Y . Li, R. Urtasun, and R. Zemel. Understanding
the effective receptive field in deep convolutional neural net-
works. In Proceedings of Advances in Neural Information
Processing Systems, pages 4898–4906, 2016. 3
[19] P . Molchanov, S. Tyree, T. Karras, T. Aila, and J. Kautz.
Pruning convolutional neural networks for resource efficient
inference. arXiv:1611.06440, 2016. 8
[20] M. Najibi, P . Samangouei, R. Chellappa, and L. S. Davis.
Ssh: Single stage headless face detector. In Proceedings of
IEEE International Conference on Computer Vision, pages
4875–4884, 2017. 2, 3, 6
[21] T. Ojala, M. Pietikinen, and T. Menp. Multiresolution gray-
scale and rotation invariant texture classification with local
binary patterns. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 24:971–987, 2002. 2
[22] M.-T. Pham and T.-J. Cham. Fast training and selection of
haar features using statistics in boosting-based face detec-
tion. In Proceedings of IEEE International Conference on
Computer Vision, pages 1–7, 2007. 2
[23] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. Y ou
only look once: Unified, real-time object detection. In Pro-
ceedings of IEEE Conference on Computer Vision and Pat-
tern Recognition, pages 779–788, 2016. 2

[24] J. Redmon and A. Farhadi. Y olo9000: better, faster, stronger.
In Proceedings of IEEE Conference on Computer Vision and
Pattern Recognition, pages 7263–7271, 2017. 2
[25] J. Redmon and A. Farhadi. Y olov3: An incremental improve-
ment. arXiv:1804.02767, 2018. 2
[26] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards
real-time object detection with region proposal networks. In
Proceedings of Advances in Neural Information Processing
Systems, pages 91–99, 2015. 2
[27] K. Simonyan and A. Zisserman.  V ery deep con-
volutional networks for large-scale image recognition.
arXiv:1409.1556, 2014. 1, 2
[28] X. Tang, D. K. Du, Z. He, and J. Liu. Pyramidbox: A
context-assisted single shot face detector. In Proceedings of
European Conference on Computer Vision, pages 797–813,
2018. 1, 2, 3, 6
[29] P . Viola and M. J. Jones. Robust real-time face detection.
International Journal of Computer Vision, 57(2):137–154,
2004. 2
[30] H. Wang, Z. Li, X. Ji, and Y . Wang.  Face r-cnn.
arXiv:1706.01061, 2017. 2
[31] M. Wang and W. Deng. Deep face recognition: A survey.
arXiv:1804.06655, 2018. 1
[32] B. Yang, J. Yan, Z. Lei, and S. Z. Li. Aggregate channel
features for multi-view face detection. In Proceedings of
IEEE International Joint Conference on Biometrics, pages
1–8, 2014. 2
[33] S. Yang, P . Luo, C. C. Loy, and X. Tang. Wider face: A face
detection benchmark. In Proceedings of IEEE Conference
on Computer Vision and Pattern Recognition, pages 5525–
5533, 2016. 1, 5, 7
[34] K. Zhang, Z. Zhang, Z. Li, and Y . Qiao. Joint face detection
and alignment using multitask cascaded convolutional net-
works. IEEE Signal Processing Letters, 23(10):1499–1503,
2016. 2
[35] K. Zhang, Z. Zhang, H. Wang, Z. Li, Y . Qiao, and W. Liu.
Detecting faces using inside cascaded contextual cnn. InPro-
ceedings of IEEE International Conference on Computer Vi-
sion, pages 3171–3179, 2017. 2
[36] S. Zhang, R. Zhu, X. Wang, H. Shi, T. Fu, S. Wang, T. Mei,
and S. Z. Li. Improved selective refinement network for face
detection. arXiv:1901.06651, 2019. 1, 2
[37] S. Zhang, X. Zhu, Z. Lei, H. Shi, X. Wang, and S. Z. Li.
Faceboxes: A cpu real-time face detector with high accuracy.
In Proceedings of IEEE International Joint Conference on
Biometrics, pages 1–9, 2017. 2, 3, 4, 6
[38] S. Zhang, X. Zhu, Z. Lei, H. Shi, X. Wang, and S. Z. Li.
S3fd: Single shot scale-invariant face detector. In Proceed-
ings of IEEE International Conference on Computer Vision,
pages 192–201, 2017. 2, 3, 4, 6
[39] Y . Zhang, X. Xu, and X. Liu. Robust and high performance
face detector. arXiv:1901.02350, 2019. 1, 2
[40] C. Zhu, R. Tao, K. Luu, and M. Savvides. Seeing small
faces from robust anchor’s perspective. In Proceedings of
IEEE Conference on Computer Vision and Pattern Recogni-
tion, pages 5127–5136, 2018. 2, 3

[41] Q. Zhu, M.-C. Yeh, K.-T. Cheng, and S. Avidan. Fast human
detection using a cascade of histograms of oriented gradi-
ents. In Proceedings of IEEE Conference on Computer Vi-
sion and Pattern Recognition, pages 1491–1498, 2006. 2

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章