文獻閱讀-基於輕量卷積神經網絡的表情識別方法

摘要

有效的表情識別算法可以幫助機器更好理解人類,並且促進人機交互應用程序的發展。在近些年,一些研究工作利用基準表情數據訓練深層神經網絡模型並取得了研究成果。這些高精度模型通常包含一百層,所以他們需要複雜計算,並不適合一些真實場景。本文提出了一個輕型表情識別模型可以在自然條件下處理延遲問題。本文的三個主要貢獻如下:
(1)LER模型包含一個緊密連接的卷積層和模型壓縮將技術集成到消除冗餘參數的框架中。
(2)多通道輸入的引入對圖像數據進行預處理,提高了模型的學習能力。
(3)實驗結果表明,該模型與其他輕量化模型相比,在FER2013和FERPLUS數據集上具有較好的性能。在與之前工作中使用的VGG13相比,LER模型可以獲得更高的精度,並減少97倍的參數數量。最後,FERFIN數據集被創建並且比FERPLUS數據集有着更少的噪聲和更精確的標籤。

介紹

表情是在人類激烈的心理活動中產生的認知體驗,它通過觀察面部表情爲人們相互交流提供線索。建立一個可以自動識別表情的系統,可以應用於很多場景,如疼痛檢測、患者護理、駕駛員警報系統和檢測虛假陳述。

面部表情可以通過電刺激產生這一事實表明臉是分析情緒最有效的方法。第一個關於表情識別的研究於1978年被提出,跟蹤了一組連續的人臉圖像中關鍵點的位置。另外,面部運動編碼系統通過定義面部動作單位來測量人的面部動作。面部運動編碼系統試圖描述所有的面部狀態。然而,落後的預處理算法和較低的計算能力限制了它的發展。2000年,Kanade和Cohn發佈了CK數據集,其中包含數百個來由變量的人臉序列來克服這種情況。

早期的研究集中在提取手工製作的特徵,它包含了來自二維圖像的先驗知識,大致可以分爲幾何和外觀。幾何特徵善於通過研究座標之間的相關性來刻畫原始表情面部標誌物。例如,Pantic等人利用粒子濾波檢測有限的人臉標誌點,並計算他們之間的距離來測量AUs。相比較而言,外觀特徵更善於通過計算像素的強度值來發現人臉細微的顏色和紋理變化。一個典型的例子是Gabor濾波器,它是用於紋理分析的線性濾波器。Bartlett等人用Gabor濾波器對輸入數據進行卷積,得到基礎情感識別。

二維圖像便於特徵提取,而三維圖像包含更多的內在信息。爲了補充灰色或RGB數據的深度信息,研究人員將重點放在新的模式上,如3D數據和熱圖,Yin等人發佈了一個BU-3DFE數據庫,包含100名實驗者的2500個3D面部表情。他們聲稱三維模型比二維模型更能處理大的頭部旋轉、細微的皮膚運動和光線變化。然而,立體頭像的建模需要可靠的軟件來實現某些真實感效果,包括密集的數值計算。對於熱圖,解釋的困難使得提取面部信息變得困難,並且常常需要與RGB數據集相結合。

在利用手工特徵的方法中,主要挑戰是在自然環境中的性能下降,這是由頭部姿勢變化、光照和遮擋造成的。相比之下,數據驅動方法得益於離散圖形和大數據技術的發展。近年來,許多優秀的工作採用機器學習(ML)算法來完成端到端的任務。典型的例子是支持向量機和隨機森林,它們是有監督算法和k臨近算法,它們減少了輸入的維度,是一種無監督算法。此外,作爲計算機視覺的一個分支,深度學習,特別是卷積神經網絡在計算機視覺領域中起着主導作用,例如分類和分割。卷積神經網絡受到生物過程的啓發,與其他圖像分類算法相比,它使用的預處理相對較少。此外,共享權重體系結構和平移不變性使其專門用於圖像識別應用。

儘管許多情感識別方法已將CNN納入其框架,但是需要考慮的兩個主要問題是缺乏標記數據和計算效率低下。在諸如駕駛員輔助系統中的疲勞監測的應用中,實時數據處理是必然的要求。因此,在這種情況下,大型CNN可能毫無用處。爲了充分利用CNN的性能,並在實踐中應用成熟的模型,我們展示瞭如何通過提出基於密集卷積神經網絡的策略來實現這一目的,該策略不僅消除了數百萬個參數,而且還可以獲得與大型CNN相當的精度,DenseNet由Huang等人設計。並在許多基準圖像分類數據集中獲得了最新技術成果。值得注意的是,DenseNet可以通過特徵重用和卷積層生成的壓縮特徵圖顯著減少可訓練參數。

受到他們工作的啓發,我們提出了一種輕量級的情感識別(LER)模型,該模型將密集連接的卷積層和模型壓縮技術合併到了消除冗餘參數的框架中。在使用多通道輸入方法對圖像數據進行預處理之後,LER模型與以前的工作相比可以實現更高的精度,並將參數減少97倍。最後,根據FER2013和FERPLUS數據集的分佈,我們通過去除噪聲數據並組合兩個相似的類別來創建FERFIN數據集。詳細信息在第3節中進行說明。

相關工作

完整的情緒識別系統必須包含三個步驟:面部檢測,面部對其和情緒識別,每個步驟中使用的策略都不同,具體取決於數據的形式,當前研究界採用2D,3D和熱數據形式。本研究的主要重點是2D圖像,因爲3D模型需要複雜的計算並且熱圖像具有許多限制,例如缺少幾何信息。

A.面部檢測

面部檢測的目的是識別圖像中的臉部並將其標記爲後續步驟。標記方法可以分爲兩類:針對面部邊界框的檢測方法和使用像素的二進制標籤指定輪廓的分割方法。

Viola和Jones建議將級聯分類器應用於AdaBoost選擇的類似haar的特徵,並且仍然是最流行的方法之一。類似haar的特徵會考慮特定位置的相鄰矩形區域,並且可以在恆定時間內針對任何尺寸的圖像進行計算。儘管效率很高,但是它不能解決遮擋和較大的姿勢變化。使用梯度直方圖(HOG)來檢測人類的線性支持向量機(SVM)也是一種典型的方法。第一步將圖像劃分爲較小的連接區域,然後獲得強度梯度或邊緣方向的分佈。由於HOG描述符在本地單元上運行,因此其對幾何的不變性使其適合於人類的檢測。Osadchy建立了卷積神經網絡模型,將輸入圖像映射到流形上的點,以將人臉檢測和姿勢估計集成在一起。如果有足夠的數據可用,它將在各種姿勢圖像上獲得非凡的準確性。

B.面部校對

人臉對齊的目的是解決人臉不是正面可能導致識別結果不準確的情況。主流方法是基於所定位的臉部找到臉部界標,然後進行旋轉或變形。地標號的變化取決於在眼睛,鼻子,嘴巴和臉部輪廓周圍使用的採樣點數量。主動外觀模型(AAM)是主動形狀模型(ASM)的擴展,並試圖通過學習外觀估計與目標圖像之間的相關性來構建統計模型[26]。通過最小二乘算法優化匹配過程,最小二乘算法是一種標準迴歸分析方法。此外,AAM還利用了形狀特徵以外的其他紋理信息。 Matthias和Juergen提出了一種使用條件迴歸森林的實時方法,以從面部圖像斑塊中學習強度特徵[27]。條件模型是一種機器學習框架,它通過結合先前表達知識的聲明性約束來增強學習。與可以緩解過度擬合問題的隨機森林一起,它們可以有效地提高準確性。最近建議的一種方法,該方法利用通過梯度增強優化的迴歸樹集合來定位面部標誌,從而以毫秒級別處理圖片[28]。本質上,迴歸樹是具有連續目標值的決策樹,通過集成學習技術可以實現更好的預測性能。

C.表情識別

情緒識別策略取決於兩個因素:面部表情的定義和可分爲手工和學習的特徵提取。

1)面部表情的定義
有兩種定義面部表情的方法,它們是連續的和離散的。 連續的定義依賴於FACS,其中AU代表臉部一個或多個肌肉的收縮[5]。 在這種情況下,研究人員已嘗試檢測AU的四個階段,即中性,發作,頂點和偏移。 這四個階段具有時間上的連貫性,可以代表從AU的開始到結束的標記過程。 離散定義可劃分面部表情空間並生成最基本的表情。 早期方法僅識別出六個基本表達:厭惡,恐懼,幸福,驚奇,悲傷和憤怒。 後來,爲了找到更精細的分類,研究人員添加了更多基本表達。 離散定義由於其通用性和可理解性而被廣泛用於表情識別研究。

2)手工製作的功能
幾何和外觀是該類別下的兩個主要類別。幾何特徵基於圖像中發現的面部參考點測量距離,曲率和變形。外觀功能通過分析像素之間的關係來捕獲特定信息。光流是視在運動的模式,並着眼於圖像中亮度模式的運動速度分佈。一些作品使用光流來檢測AU並識別相應的主要情緒。儘管非盟對背景變化具有較強的抵抗力,但它們對強光很敏感。 Pantic和Patras [8]提出了一種粒子過濾器來跟蹤面部的15個特徵點的位置,並根據距離的變化自動識別面部輪廓中的動作單位(AUs)。 Sandbach和Zafeiriou [29]提出了一種局部正常二進制模式,通過計算從3D圖像信息中提取的2D特徵局部二進制模式(LBP)特徵來識別表達式。Dhall等人使用了PHOG(梯度直方圖金字塔)特徵和LPQ(局部相位量化)功能可描述面部外觀和形狀。 PHOG功能是HOG功能的改進。它對不同級別的邊緣圖像方向梯度直方圖進行統計分析,從而獲得了強大的抗噪性能和一定的抗旋轉能力,但受分層規則的約束,缺乏尺度適應性。 Littlewor [10]使用Gabor濾波器提取圖像特徵,這些圖像特徵利用Gabor小波特徵來處理紋理和辨別特徵以及光照不變性和姿勢不變性,但缺點是計算複雜且需要時間來進行高斯核函數調製和其他步驟。

3)學習功能
手工製作的功能涉及大量先驗知識,很難修改,因此研究人員將注意力轉向了端到端學習方法。這些方法主要基於卷積神經網絡,使用大量的標籤數據進行監督學習,擅長處理圖像數據[31],[32],並利用局部感受野的特徵,類似於人類的方法。眼睛觀察事物。遞歸神經網絡考慮了其他時序信息,其變體版本可以保留重要信息並放棄不想要的信息[33],[34]。由於大數據的發展,上述具有很強數據依賴性的方法已經佔據了大多數的視野問題,研究人員不斷擴大網絡架構的深度和寬度以獲得更好的結果。但是,有兩個明顯的缺點。一是神經網絡性能的上限取決於貼標機的可靠性。如果標籤錯誤,則從中學習的模型將無法獲得較高的準確性。其次,大規模網絡需要數千個可訓練的參數,這意味着將其應用於實際應用是不可行的。總之,手工製作的特徵具有低複雜度和快速的計算速度的優點,但是它們需要先驗知識並且具有較差的泛化能力。引用深度學習方法的學習功能可以處理大規模差異,但是隨着模型體系結構的增加,觸發器會成倍增加。我們試圖尋找一種既可以解決頭和背景多樣性手段,又可以提高計算效率的方法。因此,我們採用了密集的卷積神經網絡,該網絡使用許多參數壓縮層來降低模型複雜性,並且仍採用數據驅動的方式。下一節將說明詳細信息。

提出了表情識別框架

在這一部分中,我們簡要介紹了人臉檢測和人臉對齊的流水線,並重點闡述了我們的DenseNet模型在不同的超參數配置下的應用。

在這裏插入圖片描述

A.臉部檢測與對其

在人臉檢測部分,我們使用了應用於HOG特徵的SVM方法,該方法通過計算圖像局部區域的梯度直方圖並將其放入分類器中,從而構建了特徵向量。 如果結果是肯定的,則返回檢測區域的位置,該位置是邊界框左上角的座標(Xl,Yl)和右下角的座標(Xr,Yr)。 與其他方法相比,該方法可以在準確性和速度上達到更好的平衡,並且更適合於在線標識應用。 等式1中顯示了計算圖像中像素梯度的詳細信息,其中m和θ分別是大小和方向。

在這裏插入圖片描述
在面部營養部分,我們使用了建議的毫秒合奏方法,通過梯度增強來訓練幾棵迴歸樹,然後通過決策樹的結合使包括眼輪廓,鼻樑和嘴巴輪廓在內的68個界標點回歸。 圖1和圖2說明了所提出系統中的人臉檢測和對齊過程。

B.輕型運動識別模型

DenseNet是獨特的卷積神經網絡(CNN)架構,它通過密集的連接模式和許多參數約簡層最大程度地減少了可訓練參數。

不同於深度擴展CNN架構ResNet(使用身份函數來擴展有效的最佳距離)和寬度擴展CNN架構Inception(使用不同大小的卷積濾波器以不同比例執行特徵提取)不同,DenseNet利用重度特徵複用來允許前一層的功能圖直接鏈接到後續層,如圖3所示。

本質上,DenseNet具有兩個關鍵的超參數:增長率k和密集塊數n。增長率通過卷積層指定要素地圖產品的累積速度。例如,如果具有m個通道的輸入數據經過l個卷積層,則第l層具有m + k(l 1 1)個輸入特徵圖。爲了方便地瞭解各種DenseNet架構並靈活地調整超參數,DenseNet設置了另一個超參數密集塊。

另外,所描述的卷積層不僅包括濾波窗口的卷積計算,還包括激活函數ReLU和批量歸一化。 ReLU是典型的非線性激活函數,它使用公式f(x)= max(0,x)將輸入信號映射到特徵空間。與傳統的S型激活函數相比,ReLU採用單邊抑制映射,與生物信號傳輸過程更相似,激發邊界更寬,在克服梯度消失問題方面也具有顯着效果。
在這裏插入圖片描述
此外,ReLU特意屏蔽了許多輸入信號,這些信號在X軸的負半軸上反射。這種稀疏激活更適合於提取流形中存在的稀疏圖像特徵,從而提高學習的準確性和效率。批量歸一化的目的是確保每一層的輸入均具有零均值和單位方差,該均值和單位方差最初源自輸入層的初始化,屬於網絡訓練技能,可加快網絡訓練速度並增加一定程度的正規化。等式2中顯示了卷積層中的廣義計算。
在這裏插入圖片描述
池化層位於它們之間,而不是密集塊的中間。 連同瓶頸和壓縮層一起,它們被稱爲過渡層。 卷積函數之前,所有卷積層都在輸入張量周圍填充零像素,以使特徵圖大小保持一致,如等式3所示,其中w和h是特徵圖的寬度和高度,F表示濾鏡的大小 ,s表示濾波器的移動步幅,p表示零填充像素。
在這裏插入圖片描述
在典型的CNN體系結構中,池化層之後是每個卷積層,以逐步對權重的張量進行子採樣。 但是,在DenseNet體系結構中,池化層位於兩個密集塊之間,它們充分利用了卷積層的特徵提取功能。

具體來說,我們採用2×2的平均池而不是2×2的最大池,因爲它通過強制特徵圖和類別之間的對應關係更適合卷積結構。 最大池會丟棄四分之三的信息,而平均池會考慮所有信息。 另外,平均池彙總了空間信息。 因此,它對輸入的空間轉換更加健壯。 平均歸一化實際上是一種泛化函數,可以防止密集連接陷入過度擬合問題。 平均池化後,要素圖的大小顯示在公式4中。
在這裏插入圖片描述
林的工作首先提出了瓶頸層的想法[38],他們提出了一個具有1×1卷積的微神經網絡,以增強局部補丁的模型可分辨性。 此外,通過設置較少的卷積濾波器以減小模型大小,1×1卷積可以壓縮可訓練參數。

壓縮層進一步提高了模型的緊湊性。 作爲過渡層中的最後一層,超參數θ減小了由密集塊生成的特徵圖,其中0≤θ≤1表示壓縮因子。

C.三種迷你層次

如上所述,DenseNet具有一些減少參數的實用方法。密集塊中的增長率和卷積層數是影響網絡模型大小的關鍵因素。因此,我們設計了三個小型DenseNet,以可接受的精度訓練實時情緒分類器。表1中顯示了體系結構的詳細信息。

DenseNet-1具有三個密集塊,其增長率設置爲12,每個塊具有12個卷積層。 DenseNet-2具有四個密集塊,其增長率設置爲16,每個塊具有12個卷積層。 DenseNet-3有四個密集塊,增長率設置爲12,每個塊有6、12、24、16個卷積層,分別受原始工作的啓發[21]。

對於優化算法,我們使用Nesterov動量優化方法[39],該方法基於動量的改進。動量法是對隨機梯度下降優化空間中局部最小點振動問題的一種改進。
它將先前迭代生成的加權更新向量添加到當前更新向量,如式5所示。
在這裏插入圖片描述
該算法在與梯度更新相同的方向上增加了動量,同時減小了梯度變化方向上的振動,從而實現了更快的收斂速度。 但是,盲目跟隨梯度加速度更新也會帶來不穩定。 Nesterov動量通過計算θβv(t t 1)給出優化函數後的近似梯度趨勢信息。 如果梯度有增加的趨勢,則更新速度會加快。 如果梯度具有減小的趨勢,則更新速度會變慢,如公式6所示。 本質上,引入了損失函數的二階信息,從而使優化函數在優化空間中具有預測功能,並且收斂更快,更穩定。

在這裏插入圖片描述

實驗

在這一部分,我們簡要的介紹了我們的試驗平臺和我們的數據集以及結果。

A.實驗平臺

我們的模型訓練處理是在具有3,584個CUDA單元,12GB GDDR5X內存,核心頻率爲1,531MHz的NVIDIA Titan X圖形卡上執行的,單精度浮點運算爲7.0 TFlops。 我們基於Python3.6和TFlearn深度學習工具包設計了算法。

B.數據集

FER2013數據集最初截獲了Kaggle團隊在2013年從互聯網收集的視頻中的面部表情圖像,其中包含35887張48×48像素的灰度圖像,並將其用作挑戰[40]。 首次出版時,數據集標籤分爲7類,包括4,953例“憤怒”,547例“厭惡”,5,121例“恐懼”,8,989例“快樂”。 ,“悲傷”事件6,077例,“驚喜”事件4,002例和“中立”事件6,198例。
在這裏插入圖片描述
然而,由於人類標記物的性能低下,後來證明FER2013標記不準確。 在這種情況下,Barsoum等人使用衆包方法提高了貼標機的準確性,並添加了三種輕蔑,不明和不是臉的類別。 改進後的數據集有12,906例“中立”,9,355例“驚喜”,4,462例“驚奇”,4,371例“悲傷”,3,111例“ 248” “厭惡”案件,“恐懼”案件819宗,“鄙視”案件216宗,“未知”案件222宗,“沒面子”案件177宗。
經過仔細觀察,我們發現與其他類別相比,“不是面孔”和“未知”非常少見,並且在訓練神經網絡時可能是噪音。 因此,我們修改了數據集以刪除這兩個類。 此外,“蔑視”和“厭惡”類別分別只有248例和216例。 實際上,兩種類型之間的樣本空間相似度非常高,並且它們很容易相互干擾。 因此,我們進行的第二個修改是將這兩個類結合在一起。 最終的數據集稱FERFIN,經過多數表決,其中包含12,858例“中立”,9,354例“快樂”,4,462例“驚訝”,4,351例“悲傷”, 3,082例“生氣”,575例“厭惡”和816例“恐懼”。 與原始FER2013數據集相比,總共有35,498個案例消除了390個噪聲案例。

C.結果

如第3節所述,我們在FER2013,FERPLUS和FERFIN數據集上採用了三種DenseNet架構培訓。所提出的三個模型在三個數據集上的學習曲線如圖4所示。對於在離散情況下,超參數設置略有不同。首先,在最終完全連接的層之後是7-softmax層或10-softmax層,取決於數據集的類編號。

對於其他超參數,將Nesterov動量學習率ε設置爲0.1,動量參數α爲0.1,衰減步長爲15,000。壓縮係數和瓶頸減少率設置爲0.5。在訓練策略方面,我們使用了標準的10幅數據增強,在每個圖像周圍添加了四行或零值的列,然後截取了左上,右上,左下,右下和中間五個圖塊。然後,將它們左右翻轉以將該值翻倍至十。在訓練過程中還使用了批量標準化作爲一種​​可接受的方法,以確保每一層的輸入均值和單位方差爲零。

在FER2013數據集上,DenseNet-3的驗證準確性達到71.73%,在挑戰性71.16%的研究中超過了第一名[41]。我們認爲DenseNet-3無需使用任何合奏方法和少量參數就可以實現此結果,這有兩個原因。首先,特徵重用方法增加了後續卷積層的輸入大小,並在接受網絡的先前知識的同時使後續層可學習。其次,密集的連接和瓶頸層的設置大大減少了網絡的參數,從而迫使其提取更緊湊和區分特徵。

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

在FERPLUS數據集上,DenseNet-2的驗證準確性爲85.58%。比Barsoum的研究成果高出0.69%[42],DenseNet-2的參數僅比使用VGG13少41倍。使用DenseNet-1架構時,該數字增加到92倍,而準確性下降了0.52%。大規模卷積神經網絡可以使用大量標記數據來實現最新的結果,但是實際上,達到特定值後每增加一個小的精度等級就需要更多的網絡參數。 DenseNet最小化了卷積網絡中的冗餘參數,並最大化了保留參數的表示能力。因此,我們的模型可以在準確性和算法複雜性方面取得更好的平衡。特徵圖的變化如圖5所示。

在FERFIN數據集上,相同的DenseNet-2達到85.89%的驗證精度,這支持了我們對噪聲等級的假設。由於數據庫中的類別更加不同,因此DenseNet瞭解了更強大的表示功能。表2列出了該模型的每個數據集的最佳結果。表6列出了針對這三個模型的FERFIN數據集的五次試驗的結果。

D.與最新技術的比較

我們將提出的DenseNet模型與其他最新方法與發佈FERPLUS數據集的原始工作在以下幾個方面進行了比較:訓練方法,模型,驗證準確性和優化功能。

原始工作採用四種不同的方案來處理帶有十個標籤的數據,這些標籤決定了從數據中學習神經網絡的效率。由於目標是在準確性和實時能力之間進行權衡,因此本文僅使用多數票(將最頻繁使用的標籤作爲最終標籤)來定義損失函數。與優秀方法進行了比較,以評估我們方法的優缺點。
具體來說,原始工作採用具有十個卷積層的VGG13和輟學技術作爲訓練模型。根據描述,VGG13網絡總共具有870萬個可訓練參數,並且平均驗證精度達到83.85%。超參數設置如表3所示。

相比之下,三個建議的DenseNet模型分別需要9萬,21萬和17萬個可訓練參數。 DenseNet-2的最佳平均驗證準確度爲85.58%,DenseNet-1僅包含9萬個參數,準確度降低了0.52%。驗證集中所有模型的學習曲線如圖4所示,圖8顯示FERFIN數據集的過度擬合程度。

最後,原始工作利用了標準梯度下降算法優化神經網絡,而本文則使用Nesterov動量。 Nesterov的性能優於梯度下降,但更適合具有密集連接的DenseNet體系結構。

除了Barsoum等人使用的VGG13網絡之外,我們還測試了FERPLUS數據集上其他輕量級網絡的性能,例如SqueezeNet [43],MobileNet [44]和ShuffleNet [45]。此外,我們利用了大型CNN,例如ResNet和VGG19。結果表明,本文提出的密集情感神經網絡在準確性和等待時間之間取得了最佳折衷。圖6和表4顯示了每個模型的學習曲線和相關參數。
在這裏插入圖片描述
在這裏插入圖片描述

E.討論

如表2和圖7所示,我們的模型在相應的數據集中的準確性相對令人滿意。我們認爲當前模型的成功可能歸因於以下因素。首先,卷積神經網絡擅長分析圖像數據,因爲局部感受野共享知識。其次,DenseNet的獨特架構和壓縮層將模型中的參數降至最低。第三,正確和純淨的標籤數據使收斂過程易於執行。仍然,我們的方法有缺點。從表5中可以看出,該模型對於“悲傷”,“憤怒”,“厭惡”和“恐懼”等類別的識別準確性較差。這可能是由於樣本數量少和類內差異大。將來我們將嘗試解決此問題。

深度學習方法的缺點在於研究人員追求大型標籤數據集並建立許多非常大的模型,以便他們可以在比賽中取得最先進的結果。由於淺層卷積網絡的學習能力較弱,因此像DenseNet這樣的小型高效體系結構值得更多關注和研究。因此,自動和高精度深度學習方法的優勢可以應用於實時應用程序。

在這裏插入圖片描述

結論和未來工作

爲了直接實時,高精度地識別輸入圖像中的情感,這項工作提出了一種輕量級的情感識別(LER)模型,該模型利用了密集連接的卷積層和模型壓縮技術。另外,爲了提高準確性,這項工作使用了多通道輸入法來預處理灰度圖像,並創建了一個更簡潔的數據集FERFIN,該數據集已從FERPLUS數據集進行了調整。

在原始FER2013數據集中,我們的DenseNet-3實現了驗證集的準確性爲71.73%,比一線隊的結果高0.57%。在衆包標記的數據集FERPLUS中,我們的DenseNet-2在驗證集中的準確性達到85.58%。在相同的損失函數設置下,與Bar soum的研究結果相比,我們的模型改進了0.69%[42],並且DenseNet-3中的參數比VGG13少41倍。刪除噪聲日期並組合相似的類後,我們創建了FERFIN數據集。在此數據集中,具有21萬個參數的DenseNet-2模型在驗證集中的準確性爲85.89%。許多研究人員認爲,動態模態可以提取更多有用的功能來識別自發的面部表情,這是情感識別中的下一個必然主題。將來,我們計劃通過考慮時間信息來檢測自發情緒,同時仍將輕量級算法用於實時應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章