清華出品 | 人臉識別最全知識圖譜

來源:智東西

本文約6000字,建議閱讀10+分鐘

本文全面解析人臉識別技術原理、領域人才情況、技術應用領域和發展趨勢。

自20世紀下半葉,計算機視覺技術逐漸地發展壯大。同時,伴隨着數字圖像相關的軟硬件技術在人們生活中的廣泛使用,數字圖像已經成爲當代社會信息來源的重要構成因素,各種圖像處理與分析的需求和應用也不斷促使該技術的革新。計算機視覺技術的應用十分廣泛。數字圖像檢索管理、醫學影像分析、智能安檢、人機交互等領域都有計算機視覺技術的涉足。該技術是人工智能技術的重要組成部分,也是當今計算機科學研究的前沿領域。經過近年的不斷髮展,已逐步形成一套以數字信號處理技術。計算機圖形圖像、信息論和語義學相互結合的綜合性技術,並具有較強的邊緣性和學科交叉性。其中,人臉檢測與識別當前圖像處理、模式識別和計算機視覺內的一個熱門研究課題, 也是目前生物特徵識別中最受人們關注的一個分支。

人臉識別,是基於人的臉部特徵信息進行身份識別的一種生物識別技術。通常採用攝像機或攝像頭採集含有人臉的圖像或視頻流,並自動在圖像中檢測和跟蹤人臉。根據資料,2017 年生物識別技術全球市場規模上升到了 172 億美元,到 2020 年,預計全世界的生物識別市場規模有可能達到 240 億美元。自 2015 年到 2020 年,人臉識別市場規模增長了 166.6%,在衆多生物識別技術中增幅居於首位,預計到 2020 年人臉識別技術市場規模將上升至 24 億美元。

獲取本文報告,請在後臺回覆“1103”。

一、人臉識別技術概述

1. 基本概念

人類視覺系統的獨特魅力驅使着研究者們試圖通過視覺傳感器和計算機軟硬件模擬出人類對三維世界圖像的採集、處理、分析和學習能力,以便使計算機和機器人系統具有智能化的視覺功能。在過去 30 年間,衆多不同領域的科學家們不斷地嘗試從多個角度去了解生物視覺和神經系統的奧祕,以便藉助其研究成果造福人類。自 20 世紀下半葉,計算機視覺技術就在此背景下逐漸地發展壯大。同時,伴隨着數字圖像相關的軟硬件技術在人們生活中的廣泛使用,數字圖像已經成爲當代社會信息來源的重要構成因素,各種圖像處理與分析的需求和應用也不斷促使該技術的革新。

計算機視覺技術的應用十分廣泛。數字圖像檢索管理、醫學影像分析、智能安檢、人機交互等領域都有計算機視覺技術的涉足。該技術是人工智能技術的重要組成部分,也是當今計算機科學研究的前沿領域。經過近年的不斷髮展,已逐步形成一套以數字信號處理技術、計算機圖形圖像、信息論和語義學相互結合的綜合性技術,並具有較強的邊緣性和學科交叉性。其中,人臉檢測與識別當前圖像處理、模式識別和計算機視覺內的一個熱門研究課題, 也是目前生物特徵識別中最受人們關注的一個分支。

人臉識別,是基於人的臉部特徵信息進行身份識別的一種生物識別技術。通常採用攝像機或攝像頭採集含有人臉的圖像或視頻流,並自動在圖像中檢測和跟蹤人臉。根據中國報告網發佈《2018 年中國生物識別市場分析報告-行業深度分析與發展前景預測》中內容,2017 年生物識別技術全球市場規模上升到了 172 億美元,到 2020 年,預計全世界的生物識別市場規模有可能達到 240 億美元。自 2015 年到 2020 年,人臉識別市場規模增長了 166.6%,在衆多生物識別技術中增幅居於首位,預計到 2020 年人臉識別技術市場規模將上升至 24 億美元。

在不同的生物特徵識別方法中,人臉識別有其自身特殊的優勢,因而在生物識別中有着重要的地位。人臉識別的五個優勢:

  • 非侵擾性。人臉識別無需干擾人們的正常行爲就能較好地達到識別效果,無需擔心被識別者是否願意將手放在指紋採集設備上,他們的眼睛是否能夠對準虹膜掃描裝置等等。只要在攝像機前自然地停留片刻,用戶的身份就會被正確識別。
  • 便捷性。採集設備簡單,使用快捷。一般來說,常見的攝像頭就可以用來進行人臉圖像的採集, 不需特別複雜的專用設備。圖像採集在數秒內即可完成。
  • 友好性。通過人臉識別身份的方法與人類的習慣一致,人和機器都可以使用人臉圖片進行識別。而指紋,虹膜等方法沒有這個特點,一個沒有經過特殊訓練的人,無法利用指紋和虹膜圖像對其他人進行身份識別。
  • 非接觸性。人臉圖像信息的採集不同於指紋信息的採集,利用指紋採集信息需要用手指接觸到採集設備,既不衛生,也容易引起使用者的反感,而人臉圖像採集,用戶不需要與設備直接接觸。
  • 可擴展性。在人臉識別後,下一步數據的處理和應用,決定着人臉識別設備的實際應用,如應用在出入門禁控制、人臉圖片搜索、上下班刷卡、恐怖分子識別等各個領域,可擴展性強。

正是因爲人臉識別擁有這些良好的特性,使其具有非常廣泛的應用前景,也正引起學術界和商業界越來越多的關注。人臉識別已經廣泛應用於身份識別、活體檢測、脣語識別、創意相機、人臉美化、社交平臺等場景中。

2. 發展歷程

早在 20 世紀 50 年代,認知科學家就已着手對人臉識別展開研究。20 世紀 60 年代,人臉識別工程化應用研究正式開啓。當時的方法主要利用了人臉的幾何結構,通過分析人臉器官特徵點及其之間的拓撲關係進行辨識。這種方法簡單直觀,但是一旦人臉姿態、表情發生變化,精度則嚴重下降。

20世紀90年代:1991 年,著名的“特徵臉”(Eigenface)方法第一次將主成分分析和統計特徵技術引入人臉識別,在實用效果上取得了長足的進步。這一思路也在後續研究中得到進一步發揚光大, 例如,Belhumer 成功將 Fisher 判別準則應用於人臉分類,提出了基於線性判別分析的Fisherface 方法。

2000-2012年:21 世紀的前十年,隨着機器學習理論的發展,學者們相繼探索出了基於遺傳算法、支持向量機(Support Vector Machine,SVM)、boosting、流形學習以及核方法等進行人臉識別。2009 年至 2012 年,稀疏表達(Sparse Representation)因爲其優美的理論和對遮擋因素的魯棒性成爲當時的研究熱點。與此同時,業界也基本達成共識:基於人工精心設計的局部描述子進行特徵提取和子空間方法進行特徵選擇能夠取得最好的識別效果。

Gabor 及 LBP 特徵描述子是迄今爲止在人臉識別領域最爲成功的兩種人工設計局部描述子。這期間,對各種人臉識別影響因子的針對性處理也是那一階段的研究熱點,比如人臉光照歸一化、人臉姿態校正、人臉超分辨以及遮擋處理等。

也是在這一階段,研究者的關注點開始從受限場景下的人臉識別轉移到非受限環境下的人臉識別。LFW 人臉識別公開競賽(LFW 是由美國馬薩諸塞大學發佈並維護的公開人臉數集,測試數據規模爲萬)在此背景下開始流行,當時最好的識別系統儘管在受限的 FRGC 測試集上能取得 99%以上的識別精度,但是在 LFW 上的最高精度僅僅在 80%左右,距離實用看起來距離頗遠。

2013年:微軟亞洲研究院的研究者首度嘗試了 10 萬規模的大訓練數據,並基於高維LBP 特徵和 Joint Bayesian 方法在 LFW 上獲得了 95.17%的精度。這一結果表明:大訓練數據集對於有效提升非受限環境下的人臉識別很重要。然而,以上所有這些經典方法,都難以處理大規模數據集的訓練場景。

2014年:2014 年前後,隨着大數據和深度學習的發展,神經網絡重受矚目,並在圖像分類、手寫體識別、語音識別等應用中獲得了遠超經典方法的結果。香港中文大學的 Sun Yi 等人提出將卷積神經網絡應用到人臉識別上,採用 20 萬訓練數據,在 LFW 上第一次得到超過人類水平的識別精度,這是人臉識別發展歷史上的一座里程碑。自此之後,研究者們不斷改進網絡結構,同時擴大訓練樣本規模,將 LFW 上的識別精度推到 99.5%以上。人臉識別發展過程中一些經典的方法及其在 LFW 上的精度,都有一個基本的趨勢:訓練數據規模越來越大,識別精度越來越高。

人臉識別技術發展歷程

3. 中國政策支持

2015 年以來,國家密集出臺了《關於銀行業金融機構遠程開立人民幣賬戶的指導意見(徵求意見稿)》,給人臉識別普及打開了門縫;其後,《安全防範視頻監控人臉識別系統技術要求》、《信息安全技術網絡人臉識別認證系統安全技術要求》等法律法規,爲人臉識別在金融、安防、醫療等領域的普及打下了堅實的基礎,掃清了政策障礙。同時,2017 年人工智能首次寫入國家政府報告,作爲人工智能的重要細分領域,國家對人臉識別相關的政策支持力度在不斷的加大。2017 年 12 月發佈的《促進新一代人工智能產業發展三年行動計劃(2018-2020 年)》規劃“到 2020 年,複雜動態場景下人臉識別有效檢出率超過 97%,正確識別率超過 90%”。

人臉識別相關政策

4. 發展熱點

研究通過對以往人臉識別領域論文的挖掘,總結出人臉識別領域的研究關鍵詞主要集中在人臉識別、特徵提取、稀疏表示、圖像分類、神經網絡、目標檢測、人臉圖像、人臉檢測、圖像表示、計算機視覺、姿態估計、人臉確認等領域。

下圖是對人臉識別研究趨勢的分析,旨在基於歷史的科研成果數據的基礎上,對技術來源、熱度甚至發展趨勢進行研究。圖 2 中,每個彩色分支代表一個關鍵詞領域,其寬度表示該關鍵詞的研究熱度,各關鍵詞在每一年份的位置是按照這一時間上所有關鍵詞的熱度高度進行排序。起初,Computer Vision(計算機視覺)是研究的熱點,在 20 世紀末期,Feature Extraction(特徵提取)超越 CV,成爲研究的新熱點,其後在 21 世紀初期被 Face Recognition 超過,至今一直處在第二的位置上。

人臉識別相關熱點

此外,研究根據最近兩年發表於 FG(International Conference on Automatic Face and Gesture Recognition)的論文中提取出來的關鍵詞發現,Face Recognition 出現頻率最高,爲118 次,Object Detection 排在第二位,爲 41 次,Image Classification 和 Object Recognition 以36 次並列第三,出現次數超過十次的詞彙還有 Image Segmentation(32)、Action Recognition(32)、Sparse Representation(28)、Image Retrieval(27)、Visual Tracking(24)、SingleImage(23)。詞雲圖如下所示:

人臉識別詞雲分析

5. 人臉識別相關會議

計算機視覺(CV)界三大頂級國際會議:

ICCV: IEEE International Conference on Computer Vision

該會議由美國電氣和電子工程師學會(IEEE, Institute of Electrical & Electronic Engineers)主辦,主要在歐洲、亞洲、美洲的一些科研實力較強的國家舉行。作爲世界頂級的學術會議,首屆國際計算機視覺大會於 1987 年在倫敦揭幕,其後兩年舉辦一屆。 ICCV 是計算機視覺領域最高級別的會議,會議的論文集代表了計算機視覺領域最新的發展方向和水平。 論文接受率在 20%左右。方向爲計算機視覺、模式識別、多媒體計算等。

近年來,全球學界愈來愈關注中國人在計算機視覺領域所取得的科研成就,這是因爲由中國人主導的相關研究已取得了長足的進步——2007 年大會共收到論文 1200 餘篇,而獲選論文僅爲 244 篇,其中來自中國大陸,香港及臺灣的論文有超過 30 篇,超過大會獲選論文總數的 12%。作爲最早投入深度學習技術研發的華人團隊,在多年佈局的關鍵技術基礎之上,香港中文大學教授湯曉鷗率領的團隊迅速取得技術突破。2012 年國際計算視覺與模式識別會議(CVPR)上僅有的兩篇深度學習文章均出自湯曉鷗實驗室,而在 2013 年國際計算機視覺大會(ICCV)上全球學者共發表的 8 篇深度學習領域的文章中,有 6 篇出自湯曉鷗實驗室。

CVPR:IEEE Conference on Computer Vision and Pattern Recognition

該會議是由 IEEE 舉辦的計算機視覺和模式識別領域的頂級會議。每年召開一次,錄取率在 25%左右。方向爲計算機視覺、模式識別、多媒體計算等。

香港中文大學教授湯曉鷗率領的團隊在全球範圍內做出了大量深度學習原創技術突破:2012 年國際計算視覺與模式識別會議(CVPR)上僅有的兩篇深度學習文章均出自其實驗室;2011—2013 年間在計算機視覺領域兩大頂級會議 ICCV 和 CVPR 上發表了 14 篇深度學習論文,佔據全世界在這兩個會議上深度學習論文總數(29篇)的近一半。他在 2009 年獲得計算機視覺領域兩大最頂尖的國際學術會議之一 CVPR 最佳論文獎,這是 CVPR 歷史上來自亞洲的論文首次獲獎。

ECCV:European Conference on Computer Vision

ECCV 是一個歐洲的會議,每次會議在全球範圍錄用論文 300 篇左右,主要的錄用論文都來自美國、歐洲等頂尖實驗室及研究所,中國大陸的論文數量一般在 10-20 篇之間。ECCV2010 的論文錄取率爲 27%。兩年召開一次,論文接受率在 20%左右。方向爲計算機視覺、模式識別、多媒體計算等。2018 年的 ECCV 於 2018 年 9 月 8 日-14 日在德國慕尼黑舉辦。

亞洲計算機視覺會議:

ACCV:Asian Conference on Computer Vision

ACCV 即亞洲計算機視覺會議,是 AFCV(Asian Federation of Computer Vision,亞洲計算機視覺聯盟)自 1993 年以來官方組織的兩年一度的會議,旨在爲研究者、開發者和參與者提供一個良好的平臺來展示和討論計算機視覺領域和相關領域的新問題、新方案和新技術。2018 年第 14 屆亞洲計算機視覺會議將於 2018 年 12 月 4 日-6 日在澳大利亞舉辦。

人臉和手勢識別專門的會議:

FG:IEEE International Conference on Automatic Face and Gesture Recognition

“International Conference on Automatic Face and Gesture Recognition”是全球範圍內人臉與手勢識別領域的權威學術會議。會議方向有人臉檢測、人臉識別、表情識別、姿勢分析、心理行爲分析等。

二、人臉識別技術詳解

1. 人臉識別流程

人臉識別技術原理簡單來講主要是三大步驟:

  • 一是建立一個包含大批量人臉圖像的數據庫,
  • 二是通過各種方式來獲得當前要進行識別的目標人臉圖像,
  • 三是將目標人臉圖像與數據庫中既有的人臉圖像進行比對和篩選。

根據人臉識別技術原理具體實施起來的技術流程則主要包含以下四個部分,即人臉圖像的採集與預處理、人臉檢測、人臉特徵提取、人臉識別和活體鑑別。

人臉識別技術流程

人臉圖像的採集與預處理

人臉圖像的採集與檢測具體可分爲人臉圖像的採集和人臉圖像的檢測兩部分內容。

人臉圖像的採集:採集人臉圖像通常情況下有兩種途徑,分別是既有人臉圖像的批量導入和人臉圖像的實時採集。一些比較先進的人臉識別系統甚至可以支持有條件的過濾掉不符合人臉識別質量要求或者是清晰度質量較低的人臉圖像,儘可能的做到清晰精準的採集。既有人臉圖像的批量導入:即將通過各種方式採集好的人臉圖像批量導入至人臉識別系統,系統會自動完成逐個人臉圖像的採集工作。人臉圖像的實時採集:即調用攝像機或攝像頭在設備的可拍攝範圍內自動實時抓取人臉圖像並完成採集工作。

人臉圖像的預處理:人臉圖像的預處理的目的是在系統對人臉圖像的檢測基礎之上,對人臉圖像做出進一步的處理以利於人臉圖像的特徵提取。人臉圖像的預處理具體而言是指對系統採集到的人臉圖像進行光線、旋轉、切割、過濾、降噪、放大縮小等一系列的複雜處理過程來使得該人臉圖像無論是從光線、角度、距離、大小等任何方面來看均能夠符合人臉圖像的特徵提取的標準要求。在現實環境下采集圖像,由於圖像受到光線明暗不同、臉部表情變化、陰影遮擋等衆多外在因素的干擾,導致採集圖像質量不理想,那就需要先對採集到的圖像預處理,如果圖像預處理不好,將會嚴重影響後續的人臉檢測與識別。研究介紹三種圖像預處理手段,即灰度調整、圖像濾波、圖像尺寸歸一化等。

灰度調整:因爲人臉圖像處理的最終圖像一般都是二值化圖像,並且由於地點、設備、光照等方面的差異,造成採集到彩色圖像質量不同,因此需要對圖像進行統一的灰度處理,來平滑處理這些差異。灰度調整的常用方法有平均值法、直方圖變換法、冪次變換法、對數變換法等。

圖像濾波:在實際的人臉圖像採集過程中,人臉圖像的質量會受到各種噪聲的影響,這些噪聲來源於多個方面,比如周圍環境中充斥大量的電磁信號、數字圖像傳輸受到電磁信號的干擾等影響信道,進而影響人臉圖像的質量。爲保證圖像的質量,減小噪聲對後續處理過程的影響, 必須對圖像進行降噪處理。去除噪聲處理的原理和方法很多,常見的有均值濾波,中值濾波等。目前常用中值濾波算法對人臉圖像進行預處理。

圖像尺寸歸一化:在進行簡單的人臉訓練時候,遇到人臉庫的圖像像素大小不一樣時,我們需要在上位機人臉比對識別之前對圖像做尺寸歸一化處理。需要比較常見的尺寸歸一化算法有雙線性插值算法、最近鄰插值算法和立方卷積算法等。

人臉檢測

一張包含人臉圖像的圖片通常情況下可能還會包含其他內容,這時候就需要進行必要的人臉檢測。也就是在一張人臉圖像之中,系統會精準的定位出人臉的位置和大小,在挑選出有用的圖像信息的同時自動剔除掉其他多餘的圖像信息來進一步的保證人臉圖像的精準採集。

人臉檢測是人臉識別中的重要組成部分。人臉檢測是指應用一定的策略對給出的圖片或者視頻來進行檢索,判斷是否存在着人臉,如果存在則定位出每張人臉的位置、大小與姿態的過程。人臉檢測是一個具有挑戰性的目標檢測問題,主要體現在兩方面:

人臉目標內在的變化引起:

  • 人臉具有相當複雜的細節變化和不同的表情(眼、嘴的開與閉等),不同的人臉具有不同的外貌,如臉形、膚色等;
  • 人臉的遮擋,如眼鏡、頭髮和頭部飾物等。

外在條件變化引起:

  • 由於成像角度的不同造成人臉的多姿態,如平面內旋轉、深度旋轉以及上下旋轉等,其中深度旋轉影響較大;
  • 光照的影響,如圖像中的亮度、對比度的變化和陰影等;
  • 圖像的成像條件,如攝像設備的焦距、成像距離等。

人臉檢測的作用,便是在一張人臉圖像之中,系統會精準的定位出人臉的位置和大小, 在挑選出有用的圖像信息的同時自動剔除掉其他多餘的圖像信息來進一步的保證人臉圖像 的精準採集。人臉檢測重點關注以下指標:

檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,檢測模型效果越好;

誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,檢測模型效果越好;

漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,檢測模型效果越好; 速度:從採集圖像完成到人臉檢測完成的時間。時間越短,檢測模型效果越好。

目前的人臉檢測方法可分爲三類,分別是基於膚色模型的檢測、基於邊緣特徵的檢測、基於統計理論方法,下面將對其進行簡單的介紹:

  • 基於膚色模型的檢測:膚色用於人臉檢測時,可採用不同的建模方法,主要有高斯模型、高斯混合模型,以及非參數估計等。利用高斯模型和高斯混合模型可以在不同顏色空間中建立膚色模型來進行人臉檢測。通過提取彩色圖像中的面部區域以實現人臉檢測的方法能夠處理多種光照的情況, 但該算法需要在固定攝像機參數的前提下才有效。Comaniciu 等學者利用非參數的核函數概率密度估計法來建立膚色模型,並使用 mean-shift 方法進行局部搜索實現了人臉的檢測和跟蹤。這一方法提高了人臉的檢測速度,對於遮擋和光照也有一定的魯棒性。該方法的不足是和其他方法的可結合性不是很高,同時,用於人臉檢測時,處理複雜背景和多個人臉時存在困難。爲了解決人臉檢測中的光照問題,可以針對不同光照進行補償,然後再檢測圖像中的膚色區域。這樣可以解決彩色圖像中偏光、背景複雜和多個人臉的檢測問題,但對人臉色彩、位置、尺度、旋轉、姿態和表情等具有不敏感性。
  • 基於邊緣特徵的檢測:利用圖像的邊緣特徵檢測人臉時,計算量相對較小,可以實現實時檢測。大多數使用邊緣特徵的算法都是基於人臉的邊緣輪廓特性,利用建立的模板(如橢圓模版)進行匹配。也有研究者採用橢圓環模型與邊緣方向特徵,實現簡單背景的人臉檢測。Fröba 等採用基於邊緣方向匹配(Edge-Orientation Matching,EOM)的方法,在邊緣方向圖中進行人臉檢測。該算法在複雜背景下誤檢率比較高,但是與其他的特徵相融合後可以獲得很好的效果。
  • 基於統計理論方法:本文重點介紹基於統計理論方法中的Adaboost人臉檢測算法。Adaboost算法是通過無數次循環迭代來尋求最優分類器的過程。用弱分類器Haar特徵中任一特徵放在人臉樣本上,求出人臉特徵值,通過更多分類器的級聯便得到人臉的量化特徵,以此來區分人臉和非人臉。Haar功能由一些簡單黑色白色水平垂直或旋轉45°的矩形組成。目前的Haar特徵總的來說廣義地分爲三類:邊緣特徵、線特徵以及中心特徵。

這一算法是由劍橋大學的 Paul Viola 和 Michael Jones 兩位學者提出,該算法優點在於不僅計算速度快,還可以達到和其他算法相當的性能,所以在人臉檢測中應用比較廣泛,但也存在着較高的誤檢率。因爲在採用 Adaboost 算法學習的過程中,最後總有一些人臉和非人臉模式難以區分,而且其檢測的結果中存在一些與人臉模式並不相像的窗口。

人臉特徵提取

目前主流的人臉識別系統可支持使用的特徵通常可分爲人臉視覺特徵、人臉圖像像素統計特徵等,而人臉圖像的特徵提取就是針對人臉上的一些具體特徵來提取的。特徵簡單,匹配算法則簡單,適用於大規模的建庫;反之,則適用於小規模庫。特徵提取的方法一般包括基於知識的提取方法或者基於代數特徵的提取方法。

以基於知識的人臉識別提取方法中的一種爲例,因爲人臉主要是由眼睛、額頭、鼻子、耳朵、下巴、嘴巴等部位組成,對這些部位以及它們之間的結構關係都是可以用幾何形狀特徵來進行描述的,也就是說每一個人的人臉圖像都可以有一個對應的幾何形狀特徵,它可以幫助我們作爲識別人臉的重要差異特徵,這也是基於知識的提取方法中的一種。

人臉識別

我們可以在人臉識別系統中設定一個人臉相似程度的數值,再將對應的人臉圖像與系統數據庫中的所有人臉圖像進行比對,若超過了預設的相似數值,那麼系統將會把超過的人臉圖像逐個輸出,此時我們就需要根據人臉圖像的相似程度高低和人臉本身的身份信息來進行精確篩選,這一精確篩選的過程又可以分爲兩類:其一是一對一的篩選,即對人臉身份進行確認過程;其二是一對多的篩選,即根據人臉相似程度進行匹配比對的過程。

活體鑑別

生物特徵識別的共同問題之一就是要區別該信號是否來自於真正的生物體,比如,指紋識別系統需要區別帶識別的指紋是來自於人的手指還是指紋手套,人臉識別系統所採集到的人臉圖像,是來自於真實的人臉還是含有人臉的照片。因此,實際的人臉識別系統一般需要增加活體鑑別環節,例如,要求人左右轉頭,眨眼睛,開開口說句話等。

2. 人臉識別主要方法

人臉識別技術的研究是一個跨越多個學科領域知識的高端技術研究工作,其包括多個學科的專業知識,如圖像處理、生理學、心理學、模式識別等知識。在人臉識別技術研究的領域中,目前主要有幾種研究的方向,如:一種是根據人臉特徵統計學的識別方法,其主要有特徵臉的方法以及隱馬爾科夫模型(HMM,Hidden Markov Model)方法等;另一種人臉識別方法是關於連接機制的,主要有人工神經網絡(ANN,Artificial Neural Network)方法和支持向量機(SVM,Support Vector Machine)方法等;還有一個就是綜合多種識別方式的方法。

基於特徵臉的方法

特徵臉的方法是一種比較經典而又應用比較廣的人臉識別方法,其主要原理是把圖像做降維算法,使得數據的處理更容易,同時,速度又比較快。特徵臉的人臉識別方法,實際上是將圖像做 Karhunen-Loeve 變換,把一個高維的向量轉化爲低維的向量,從而消除每個分量存在的關聯性,使得變換得到的圖像與之對應特徵值遞減。在圖像經過 K-L 變換後,其具有很好的位移不變性和穩定性。所以,特徵臉的人臉識別方法具有方便實現,並且可以做到速度更快,以及對正面人臉圖像的識別率相當高等優點。但是,該方法也具有不足的地方, 就是比較容易受人臉表情、姿態和光照改變等因素的影響,從而導致識別率低的情況。

基於幾何特徵的方法

基於幾何特徵的識別方法是根據人臉面部器官的特徵及其幾何形狀進行的一種人臉識別方法,是人們最早研究及使用的識別方法,它主要是採用不同人臉的不同特徵等信息進行匹配識別,這種算法具有較快的識別速度,同時,其佔用的內存也比較小,但是,其識別率也並不算高。該方法主要做法是首先對人臉的嘴巴、鼻子、眼睛等人臉主要特徵器官的位置和大小進行檢測,然後利用這些器官的幾何分佈關係和比例來匹配,從而達到人臉識別。

基於幾何特徵識別的流程大體如下:

  • 首先對人臉面部的各個特徵點及其位置進行檢測, 如鼻子、嘴巴和眼睛等位置,然後計算這些特徵之間的距離,得到可以表達每個特徵臉的矢量特徵信息,例如眼睛的位置,眉毛的長度等,
  • 其次還計算每個特徵與之相對應關係,與人臉數據庫中已知人臉對應特徵信息來做比較,
  • 最後得出最佳的匹配人臉。基於幾何特徵的方法符合人們對人臉特徵的認識,另外,每幅人臉只存儲一個特徵,所以佔用的空間比較小; 同時,這種方法對光照引起的變化並不會降低其識別率,而且特徵模板的匹配和識別率比較高。但是,基於幾何特徵的方法也存在着魯棒性不好,一旦表情和姿態稍微變化,識別效果將大打折扣。

基於深度學習的方法

深度學習的出現使人臉識別技術取得了突破性進展。人臉識別的最新研究成果表明,深度學習得到的人臉特徵表達具有手工特徵表達所不具備的重要特性,例如它是中度稀疏的、對人臉身份和人臉屬性有很強的選擇性、對局部遮擋具有良好的魯棒性。這些特性是通過大數據訓練自然得到的,並未對模型加入顯式約束或後期處理,這也是深度學習能成功應用在人臉識別中的主要原因。

深度學習在人臉識別上有 7 個方面的典型應用:基於卷積神經網絡(CNN)的人臉識別方法,深度非線性人臉形狀提取方法,基於深度學習的人臉姿態魯棒性建模,有約束環境中的全自動人臉識別,基於深度學習的視頻監控下的人臉識別,基於深度學習的低分辨率人臉識別及其他基於深度學習的人臉相關信息的識別。

其中,卷積神經網絡(Convolutional Neural Networks,CNN)是第一個真正成功訓練多層網絡結構的學習算法,基於卷積神經網絡的人臉識別方法是一種深度的監督學習下的機器學習模型,能挖掘數據局部特徵,提取全局訓練特徵和分類,其權值共享結構網絡使之更類似於生物神經網絡,在模式識別各個領域都得到成功應用。CNN 通過結合人臉圖像空間的局部感知區域、共享權重、在空間或時間上的降採樣來充分利用數據本身包含的局部性等特徵,優化模型結構,保證一定的位移不變性。

利用 CNN 模型,香港中文大學的 Deep ID 項目以及 Facebook 的 Deep Face 項目在 LFW 數據庫上的人臉識別正確率分別達 97.45%和 97.35%只比人類視覺識別 97.5%的正確率略低。在取得突破性成果之後,香港中文大學的 DeepID2 項目將識別率提高到了 99.15%。Deep ID2 通過學習非線性特徵變換使類內變化達到最小,而同時使不同身份的人臉圖像間的距離保持 恆定,超過了目前所有領先的深度學習和非深度學習算法在 LFW 數據庫上的識別率以及人類在該數據庫的識別率。深度學習已經成爲計算機視覺中的研究熱點,關於深度學習的新算 法和新方向不斷涌現,並且深度學習算法的性能逐漸在一些國際重大評測比賽中超過了淺層 學習算法。

基於支持向量機的方法

將支持向量機(SVM)的方法應用到人臉識別中起源於統計學理論,它研究的方向是如何構造有效的學習機器,並用來解決模式的分類問題。其特點是將圖像變換空間,在其他空間做分類。

支持向量機結構相對簡單,而且可以達到全局最優等特點,所以,支持向量機在目前人臉識別領域取得了廣泛的應用。但是,該方法也和神經網絡的方法具有一樣的不足,就是需要很大的存儲空間,並且訓練速度還比較慢。

其他綜合方法

以上幾種比較常用的人臉識別方法,我們不難看出,每一種識別方法都不能做到完美的識別率與更快的識別速度,都有着各自的優點和缺點,因此,現在許多研究人員則更喜歡使用多種識別方法綜合起來應用,取各種識別方法的優勢,綜合運用,以達到更高的識別率和識別效果。

人臉識別三大經典算法

  • 特徵臉法(Eigenface)

徵臉技術是近期發展起來的用於人臉或者一般性剛體識別以及其它涉及到人臉處理的一種方法。使用特徵臉進行人臉識別的方法首先由 Sirovich 和 Kirby(1987)提出(《Low- dimensional procedure for the characterization of human faces》),並由 Matthew Turk 和 Alex Pentland 用於人臉分類(《Eigenfaces for recognition》)。首先把一批人臉圖像轉換成一個特徵向量集,稱爲“Eigenfaces”,即“特徵臉”,它們是最初訓練圖像集的基本組件。識別的過程是把一副新的圖像投影到特徵臉子空間,並通過它的投影點在子空間的位置以及投影線的長度來進行判定和識別。

將圖像變換到另一個空間後,同一個類別的圖像會聚到一起,不同類別的圖像會聚力比較遠,在原像素空間中不同類別的圖像在分佈上很難用簡單的線或者面切分,變換到另一個空間,就可以很好的把他們分開了。Eigenfaces 選擇的空間變換方法是 PCA(主成分分析), 利用 PCA 得到人臉分佈的主要成分,具體實現是對訓練集中所有人臉圖像的協方差矩陣進行本徵值分解,得到對應的本徵向量,這些本徵向量就是“特徵臉”。每個特徵向量或者特徵臉相當於捕捉或者描述人臉之間的一種變化或者特性。這就意味着每個人臉都可以表示爲這些特徵臉的線性組合。

  • 局部二值模式(Local Binary Patterns,LBP)

局部二值模式(Local Binary Patterns LBP)是計算機視覺領域裏用於分類的視覺算子。LBP 一種用來描述圖像紋理特徵的算子,該算子由芬蘭奧盧大學的 T.Ojala 等人在 1996 年提 出 ( 《 A comparative study of texture measures with classification based on featured distributions》)。2002 年, T.Ojala 等人在 PAMI 上又發表了一篇關於 LBP 的文章(《Multiresolution gray-scale and rotation invariant texture classification with local binary patterns》)。這一文章非常清楚的闡述了多分辨率、灰度尺度不變和旋轉不變、等價模式的改進的 LBP 特徵。LBP 的核心思想就是:以中心像素的灰度值作爲閾值,與他的領域相比較得到相對應的二進制碼來表示局部紋理特徵。

LBP 是提取局部特徵作爲判別依據的。LBP 方法顯著的優點是對光照不敏感,但是依然沒有解決姿態和表情的問題。不過相比於特徵臉方法,LBP 的識別率已經有了很大的提升。

  • Fisherface

線性鑑別分析在降維的同時考慮類別信息,由統計學家 Sir R. A. Fisher1936 年發明(《The use of multiple measurements in taxonomic problems》)。爲了找到一種特徵組合方式,達到最大的類間離散度和最小的類內離散度。這個想法很簡單:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別儘量距離越遠。1997 年,Belhumer 成功將 Fisher 判別準則應用於人臉分類,提出了基於線性判別分析的 Fisherface 方法(《Eigenfaces vs. fisherfaces: Recognition using class specific linear projection》)。

經典論文

Sirovich,L.,&Kirby,M.(1987).Low-dimensional procedure for the characterization of human faces.Josa a,4(3),519-524. 研究證明任何的特殊人臉都可以通過稱爲 Eigenpictures 的座標系統來表示。Eigenpictures 是面部集合的平均協方差的本徵函數。

Turk,M.,&Pentland,A.(1991).Eigenfaces for recognition.Journal of cognitive neuroscience, 3(1), 71-86. 研究開發了一種近實時的計算機系統,可以定位和追蹤人的頭部,然後通過比較面部特徵和已知個體的特徵來識別該人。該方法將面部識別問題視爲二維識別問題。識別的過程是把一副新的圖像投影到特徵臉子空間,該特徵空間捕捉到已知面部圖像之間的顯著變化。重要特徵稱爲特徵臉,因爲它們是面集的特徵向量。

Ojala,T.,Pietikäinen,M.,&Harwood,D.(1996).A comparative study of texture measures with classification based on featured distributions.Pattern recognition,29(1),51-59. 研究對不同的圖形紋理進行比較,並提出了用來描述圖像紋理特徵的 LBP 算子。

Ojala,T.,Pietikainen,M.,&Maenpaa,T.(2002).Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEE Transactions on pattern analysis and machine intelligence,24(7),971-987. 研究提出了一種理論上非常簡單而有效的灰度和旋轉不變紋理分類方法,該方法基於局部二值模式和樣本和原型分佈的非參數判別。該方法具有灰度變化穩健、計算簡單的特點。

Fisher,R.A.(1936).The use of multiple measurements in taxonomic problems.Annals of eugenics,7(2),179-188. 研究找到一種特徵組合方式,以達到最大的類間離散度和最小的類內離散度。解決方式爲:在低維表示下,相同的類應該緊緊的聚在一起,而不同的類別儘量距離越遠。

Belhumeur,P.N.,Hespanha,J.P.,&Kriegman,D.J.(1997).Eigenfaces vs.fisherfaces:Recognition using class specific linear projection. Yale University New Haven United States. 研究基於 Fisher 的線性判別進行面部投影,能夠在低維子空間中產生良好分離的類,即使在光照和面部表情的變化較大情況下也是如此。廣泛的實驗結果表明, 所提出的“Fisherface”方法的誤差率低於哈佛和耶魯人臉數據庫測試的特徵臉技術。

常用的人臉數據庫

主要介紹以下幾種常用的人臉數據庫:

ERET人臉數據庫

http://www.nist.gov/itl/iad/ig/colorferet.cfm

由 FERET 項目創建,此圖像集包含大量的人臉圖像,並且每幅圖中均只有一個人臉。該集中,同一個人的照片有不同表情、光照、姿態和年齡的變化。包含 1 萬多張多姿態和光照的人臉圖像,是人臉識別領域應用最廣泛的人臉數據庫之一。其中的多數人是西方人,每個人所包含的人臉圖像的變化比較單一。

CMU Multi-PIE人臉數據庫

http://www.flintbox.com/public/project/4742/

由美國卡耐基梅隆大學建立。所謂“PIE”就是姿態(Pose),光照(Illumination)和表情(Expression)的縮寫。CMU Multi-PIE 人臉數據庫是在 CMU-PIE 人臉數據庫的基礎上發展起來的。包含 337 位志願者的 75000 多張多姿態,光照和表情的面部圖像。其中的姿態和光照變化圖像也是在嚴格控制的條件下采集的,目前已經逐漸成爲人臉識別領域的一個重要的測試集合。

YALE人臉數據庫(美國,耶魯大學)

http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html

由耶魯大學計算視覺與控制中心創建,包含 15 位志願者的 165 張圖片,包含光照、表情和姿態的變化。

Yale 人臉數據庫中一個採集志願者的 10 張樣本,相比較 ORL 人臉數據庫 Yale 庫中每個對象採集的樣本包含更明顯的光照、表情和姿態以及遮擋變化。

YALE人臉數據庫 B

ttps://computervisiononline.com/dataset/1105138686

包含了 10 個人的 5850 幅在 9 種姿態,64 種光照條件下的圖像。其中的姿態和光照變化的圖像都是在嚴格控制的條件下采集的,主要用於光照和姿態問題的建模與分析。由於採集人數較少,該數據庫的進一步應用受到了比較大的限制。

MIT人臉數據庫

由麻省理工大學媒體實驗室創建,包含 16 位志願者的 2592 張不同姿態(每人 27 張照片),光照和大小的面部圖像。

ORL人臉數據庫

https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

由英國劍橋大學 AT&T 實驗室創建,包含 40 人共 400 張面部圖像,部分志願者的圖像包括了姿態,表情和麪部飾物的變化。該人臉庫在人臉識別研究的早期經常被人們採用,但由於變化模式較少,多數系統的識別率均可以達到 90%以上,因此進一步利用的價值已經不大。

ORL 人臉數據庫中一個採集對象的全部樣本庫中每個採集對象包含10 幅經過歸一化處理的灰度圖像,圖像尺寸均爲 92×112 ,圖像背景爲黑色。其中採集對象的面部表情和細節均有變化,例如笑與不笑、眼睛睜着或閉着以及戴或不戴眼鏡等,不同人臉樣本的姿態也有變化,其深度旋轉和平面旋轉可達 20 度。

BioID人臉數據庫

https://www.bioid.com/facedb/

包含在各種光照和複雜背景下的 1521 張灰度面部圖像,眼睛位置已經被手工標註。

UMIST圖像集

由英國曼徹斯特大學建立。包括 20 個人共 564 幅圖像,每個人具有不同角度、不同姿態的多幅圖像。

年齡識別數據集IMDB-WIKI

https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

包含 524230 張從 IMDB 和 Wikipedia 爬取的名人數據圖片。應用了一個新穎的化迴歸爲分類的年齡算法。本質就是在 0-100 之間的 101 類分類後,對於得到的分數和 0-100 相乘, 並將最終結果求和,得到最終識別的年齡。

三、技術人才

1. 學者概況

AMiner 基於發表於國際期刊會議的學術論文,對人臉識別領域全 TOP1000 的學者進行計算分析,繪製了該領域學者全球分佈地圖。從全球範圍來看,美國是人臉識別研究學者聚集最多的國家,在人臉識別領域的研究佔有絕對的優勢;英國緊隨其後,位列第二;中國位列全球第三,佔有一席之地;加拿大、德國和日本等國家也聚集了部分人才。

人臉識別學者 TOP1000 全球分佈圖

人臉識別專家國家數量排名

人臉識別全球學者 h-index 統計

h-index:國際公認的能夠比較準確地反映學者學術成就的指數,計算方法是該學者至多有 h 篇論文分別被引用了至少 h 次。

全球人臉識別學者的 h-index 平均數爲 48, h-index 指數在 20 到 40 之間的學者最多,佔比 33%; h-index 指數在 40 到 60 之間的學者和大於 60 佔比相持不下,前者爲 27%,後者爲 28%; h-index 指數小於等於 10 的學者最少,僅佔 2%。

人臉識別全球人才遷徙圖

AMiner 選取人臉識別領域影響力排名前 1000 的專家學者,對其遷徙路徑做了分析。由上圖可以看出,各國人臉識別領域人才的流失和引進略有差異,其中美國是人臉識別領域人才流動大國,人才輸入和輸出都大幅領先,且從數據來看人才流入略大於流出。英國、中國、德國、加拿大和澳大利亞等國緊隨其後,其中英國、中國和澳大利亞有輕微的人才流失現象。

研究根據在全球範圍內人臉與手勢識別領域的權威學術會議( IEEE International Conference on Automatic Face and Gesture Recognition,FG)上最近五年引用論文中,研究計算出 citation 和 h-index 排在前十的人臉識別專家,並截取部分領先學者加以介紹。

Citation 排在前十的相關學者位列如下:

Citation 前十的人臉識別專家

h-index 排在前十二的相關學者位列如下:

h-index 前十的人臉識別專家

2. 國內外人才

報告列舉了全球 6 位專家學者和5位國內專家,詳見本內參附件。

四、應用領域

從應用角度看,人臉識別應用廣泛,可應用於自動門禁系統、身份證件的鑑別、銀行ATM 取款機以及家庭安全等領域。具體來看主要有:

  • 公共安全:公安刑偵追逃、罪犯識別、邊防安全檢查;
  • 信息安全:計算機和網絡的登錄、文件的加密和解密;
  • 政府職能:電子政務、戶籍管理、社會福利和保險;
  • 商業企業:電子商務、電子貨幣和支付、考勤、市場營銷;
  • 場所進出:軍事機要部門、金融機構的門禁控制和進出管理等。

門禁人臉識別

隨着人們生活水平的提高,人們更加註重家居環境的安全,安防觀念不斷加強;伴隨着這種需求的提高,智能門禁系統應運而生,越來越多的企業、商鋪、家庭都安裝了各種各樣的門禁系統。

當前比較普遍使用的門禁系統不外乎視頻門禁、密碼門禁、射頻門禁或指紋門禁等等。其中,視頻門禁只是簡單地把視頻信息傳送給用戶,並無多少智能化,本質上離不開“人防”,用戶不在場時並不能絕對保障家居安全;密碼門禁最大的硬傷是,密碼容易忘記,並且容易破解;射頻門禁的缺點則是“認卡不認人”,射頻卡容易丟失及易被他人盜用;另外,指紋門禁的安全隱患則是指紋容易複製。因此,現有技術中提供的上述門禁系統均對應原因存在安全性較低的問題。安裝了人臉識別系統,只要對着攝像頭露個臉就可以輕鬆出入小區,真正實現了“刷臉卡”。生物識別門禁系統不需要攜帶驗證介質,驗證特徵具有唯一性,安全 性極好。目前廣泛的應用於機密等級較高的場所,例如研究所、銀行等。

市場營銷

面部識別技術在營銷上主要有兩方面的應用:首先,可以識別一個人的基本個人信息, 例如性別、大致年齡,以及他們看過什麼,看了多久等。戶外廣告公司,例如 Val Morgan Outdoor(VMO),開始採用面部識別技術來收集消費者數據。其次,該技術可以用於識別已知的個人,例如小偷,或者已經加入系統的會員。這方面的應用已經引起一些服務提供商和零售商的注意。

此外,面部識別技術還可以提高廣告的效果,並允許廣告主對消費者的表現及時做出反應。VMO 公司推出了一個測量工具 DART,這個工具可以實時看出消費者眼睛關注的方向以及時長,從而可以判斷出他們對一支廣告的關注程度。下一代的 DART 還將納入更多的人口統計學信息,除了年齡之外,還包括消費者在看一個數字標牌時的情緒。

商業銀行

利用人臉識別技術防範網絡風險:對於我國廣泛使用的磁條銀行卡,雖然技術成熟,規範,但製作技術並不複雜,銀行磁條卡磁道標準已經是公開的祕密,僅憑一臺電腦和一臺磁條讀寫器就可以順利“克隆”銀行 卡。另外製卡機銷售管理不夠嚴格。不法分子利用銀行卡詐騙案件時有發生,主要手段就是通過各種方式“克隆”或者盜用銀行卡。目前,各家商業銀行也採取了一些技術手段防止僞 造和克隆卡,如採用 CVV(Check Value Verify)技術,在生成卡磁條信息的同時產生一組校驗值,該校驗值與每個卡片本身的特性相關聯,從而達到複製無效的功能。雖然採取了多種措施,但磁條卡本身固有的缺陷已嚴重威脅到客戶的利益。對於這些銀行網絡安全問題, 我們可以利用人臉識別技術防範網絡風險。人臉識別技術就是通過圖像採集設備捕捉人的臉部區域,然後把捕捉到的人臉和數據庫中的人臉進行匹配,從而完成身份識別的任務。利用人臉識別技術準確認定持卡人的真實身份,確保持卡人的資金安全。另外,還可以通過人臉識別技術進一步鎖定不法分子,有利於公安機關快速破案。

人臉識別技術在治理假鈔方面的應用:目前,我國商業銀行在自助設備方面存在的主要問題:

  • 一是部分自助設備安裝沒有達到要求。商業銀行的部分自助設備安裝沒有按照公安部門的要求對設備進行與地面加固連接; 有的電氣環境沒有達到要求:有的沒有設置 110 連動報警或者沒有可視監控報警,有的監控錄像不夠清晰,監控錄像保存時間沒有達到規定要求等,另外設備人爲破壞現象嚴重等。
  • 二是自助設備端軟件設計缺陷。特別是某些國產設備軟件設計不夠合理,軟件變更隨意性大, 存在漏洞,造成錯帳可能性比較大。
  • 三是銀行的 ATM 機中沒有假鈔鑑別設備。由於我國商業銀行在自助設備方面存在的問題,目前,假鈔層出不窮。由於銀行的 ATM 機中沒有假鈔鑑別設備,只是在清機人員放入現金前做了鑑別,這樣的措施並不夠完善,且容易造成銀行與持卡人之間的糾紛。即使是現金存款機(CRS)有假鈔鑑別功能,但往往因爲假鈔識別特徵提取的滯後,而被不法分子所利用。不法分子先存入假鈔,然後馬上在櫃檯或其他自助設備上提取真鈔,以此手段謀取不法利益。

五、未來趨勢

總的來說,人臉識別的趨勢包括以下幾方面。

1. 機器識別與人工識別相結合

目前市面上主流的一些人臉識別公司在引用國內外知名的人臉圖像數據庫進行測試時, 其人臉識別的精準性一般都可以達到 95%以上,而且進行精準人臉識別的速度也非常快,這也從側面爲人臉識別技術投入實際應用提供了強有力的實踐證明。

不過在實際的生活中,每個人的人臉相對於攝像頭而言並不是保持靜止不動的,相反則是處於高速的運動狀態之中,攝像機採集到的人臉圖像會因爲人臉的姿態、表情、光線、裝飾物等不同而呈現出完全不同的樣子,也極有可能會出現採集到的人臉圖像不清晰、不完整、關鍵部位特徵不明顯的情況,這個時候人臉識別系統也就可能無法做到快速和精準的人臉識別了。

因此在設定了一定的人臉圖像相似程度數值之後,人臉識別公司系統會對高於該相似程度數值的人臉圖像做出提示,然後再由人工進行逐個的篩選,採用機器識別與人工識別相結合的方式才能最大限度的做到人臉圖像的精準識別。

2. 3D 人臉識別技術的廣泛應用

不論是時下主流的人臉圖像數據庫中已經保存好的人臉圖像,還是在街邊路口由攝像頭實時採集到的人臉圖像,絕大多數其實都是一張 2D 人臉圖像。2D 人臉圖像本身其實存在着固有的缺陷,那就是它無法做到深度的表達人臉圖像信息,在拍攝時特別容易受到光照、姿態、表情等因素的影響。而對於人臉來講,人臉面部包括眼睛、鼻子、耳朵、下巴等諸多的關鍵部位並不是處於一個平面上的,人臉天然具有立體效果,拍攝 2D 人臉圖像不能夠很好的完全反映出人臉面部的全部關鍵特徵。

2017 年,iPhone X 這部搭載了衆多最新前沿技術的智能手機一經亮相,便引起業界的極大關注。其中最引人注目的當屬於一項黑科技:3D 人臉解鎖功能,即 Face ID,一種新的身份認證方式。在開鎖時,用戶只需要注視着手機,Face ID 就能實現人臉識別解鎖。

蘋果在 3D 視覺領域的佈局

蘋果 iPhone X 加入 3D 面部識別功能並不是心血來潮,因爲其在 2010 年的時候就已經開始在 3D 視覺領域進行了佈局。特別是在 2013 年,蘋果公司以 3.45 億美元的價格收購了以色列的 3D 視覺公司 PrimeSense。這項收購是蘋果公司史上最大手筆的收購之一。此後, 蘋果還投資了一些列的 3D 視覺技術和人臉識別技術公司。

此外,Face ID 還可用於 Apple pay 和第三方應用。比如,蘋果就利用 Face ID 對 emoji 功能進行了升級,可通過 Face ID 利用戶面部表情來創建 3D 表情 Animojis,可利用動畫來表達情緒,不過目前這個功能只能使用在蘋果自己的 iMessage 中。這種直接“刷臉”的方式帶給了用戶更真實的人機交互體驗。

3. 基於深度學習的人臉識別技術的廣泛應用

目前主流的人臉識別技術大多都是針對輕量級的人臉圖像數據庫,對於未來完全可預見的億萬級的人臉圖像數據庫則還不太成熟,因此需要重點研究基於深度學習的人臉識別技術。

通俗意義上來講就是,目前國內人口有十三億之多,由實力雄厚的人臉識別公司牽頭在不久的未來建立起一個覆蓋全國範圍的統一的人臉圖像數據庫也是可以預見的,那麼該人臉圖像數據庫存儲的人臉圖像的容量可能會達到數十億甚至是數百億的級別,這時候可能就會存在大量表徵相似、關鍵特徵點相似的人臉,如果沒有基於深度學習的人臉識別技術,建立更爲複雜的多樣化的人臉模型,那麼在實現精準和快速的人臉識別就會比較困難。

4. 人臉圖像數據庫的實質提升

建立具備優良的多樣性和通用性的人臉圖像數據庫也是一個必然的事情,與目前主流的人臉識別公司引用的數據庫相比,其實質上的提升主要體現在如下幾個方面:一是人臉圖像數據庫量級的提升,將會從現在的十萬百萬級提升至未來的十億級甚至是百億級;二是質級的提升,將會由主流的2D 人臉圖像提升至各種關鍵特徵點更爲明顯和清晰的3D 人臉圖像; 三是人臉圖像的類型提升,將會採集每個人在各個不同的姿態、表情、光線、裝飾物等之下的人臉圖像,以充實每個人的人臉表徵進而做到精準的人臉識別。

我們認爲,人臉識別是AI技術發展較快、應用較多的一個領域,有着廣泛的應用範圍。在今年的安博會上,人臉識別及動態捕捉技術,幾乎成爲每家展商的“標配”。隨着國家科研機構的研發投入、企業對技術的鑽研、市場的推廣等,人臉識別將迎來更美好的發展浪潮。未來人臉識別或成爲有效身份識別主流,屆時,人臉識別就不是什麼新鮮詞了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章