刷臉支付“牛”在哪裏?這3大技術是關鍵

1963 年,來自 MIT 的 Larry Roberts 基於計算機視覺領域發表博士論文“Machine Perception of Three-Dimensional Solids”,至此,CV 技術作爲一項新興的人工智能開始出現在人們的視線當中。50 年後的今天,隨着智能時代的來臨,越來越多的人工智能已然走入人們的日常生活,爲衣食住行帶來意想不到的便利。

當警方多次通過人臉識別在張學友演唱會現場抓捕逃犯時,當人們走進便利店只用“靠臉吃飯”時,當凌晨 2:30 還有智能客服解答售後問題時,你是否還是會有這樣的疑問:人臉識別在應用的安全性上如何保證?智慧零售如何獲取感知分析能力?AI 算法如何與硬件結合?終端硬件的計算能力不足問題該如何解決?伴隨着數據量的迅猛增長,帶寬和存儲倍增的壓力又該如何釋放?

帶着對這些問題的解答,來自騰訊優圖、騰訊雲、騰訊 AI LAB、英特爾的五位技術講師,圍繞着智慧零售、智能硬件、人臉核身、語音識別等產品技術,基於實際業務場景的落地與用戶痛點開始了這場佈道。

計算機視覺技術的落地

智慧零售是以消費體驗過程爲核心,以數據驅動的泛零售業態。其主要包括場景數據化和數據網絡化兩個結構。以電商爲例,當消費者入店時,其形成的客戶畫像,以及整個流動軌跡,與商品的交互行爲,購買,復購,到最終的離店。全閉程的環節都可以以數據的形式呈現出來,這也是零售中所談到的非常重要的概念叫做人 - 貨 - 場的關係。

而原本需要依靠門店運營者人眼觀察進行的分析,現在就可通過計算機視覺技術的應用實現數據從非結構化到結構化的轉變,並可以實時準確的幫助門店運營者分析統計數據,爲門店實現降本增效。因此,計算機視覺技術也成爲了建立人 - 貨 - 場三者聯繫的天然紐帶,並幫助商家提升全鏈路運營效率,優化客戶體驗,創造新的商業機會。

那麼 CV 技術是如何在線下指導實踐與應用?騰訊優圖嘗試將 CV 技術運用到線下門店運營的問題解決上,基於圖像識別技術,人臉識別技術等計算機視覺技術,幫助商家將線下的場景做到數字化的分析。
此解決方案分爲到店——>逛店——>購買三大模塊,通過對各個環節的分解和洞察,爲零售商打造知人知面更知心的智慧門店。

首先在影響營銷銷售額的 10 大因素中過店客流、進店客流是非常重大的因素。因此在到店模塊中,客流從過店到進店的轉換分析下,CV 技術能力可幫助商家分時分段的實時統計過店客流,以及過店到進店的客流轉換,以此來指導零售商分析店鋪的高峯期和冷淡期。同時,按照性別、年齡等特徵維度,也可描繪出店家過店客流的人羣畫像。這些數據一方面可以指導店家調整櫥窗陳列,另外一方面還可幫助營銷活動的決策。如果是一個大型 Mall 的業態,或者連鎖店的業態,還可通過進店客流對所有店鋪進行排名,對比分析不同店鋪客流量好與不好的影響因素,進行更加全面的分析與優化。

在完成了第一層漏斗轉換的分析,接下來就是用戶進店後,逛店到購買的轉化。

啤酒尿布這個經典營銷案例的背後就隱含着人 - 貨 - 場關係對營銷的影響,並體現着零售業中非常重要的一個指標:連帶率。它反應了顧客購物的深度和廣度。影響連帶率的因素非常多,人的方面像銷售技巧,比如客戶在麥當勞中買了薯條,售貨員可能會詢問客戶是否需要可樂;在貨的層面,商品的 SKU 是否豐富,擺放是否具備吸引力;在場的層面,貨架之間是否有關聯,場內的遊逛軌跡是否合理。所以如果說,第一環節從過店 - 進店是粗力度的客流統計和畫像刻畫。那麼,第二環節,在逛店模塊就需要對客流做非常細粒度的統計,幫助提升連帶率的指標。

在逛店模塊中,CV 技術再次幫助用戶實現客流軌跡和全場熱力的解決方案。

第一步,場內精細客流的統計。從客流進店後,可以做到精確到每一分鐘,每幾小時客流分佈情況,以一個服裝店爲例,可以精確到男裝、女裝區域的客流分佈情況,進行一個細粒度的客流統計;第二步,刻畫客流軌跡。精確到進店後人流行走路線,客流整個的軌跡遊逛的動線是怎麼樣的;第三步,實現區域熱力的統計。熱力分析的業務價值主要體現在零售 KPI 中的“坪效”的指標(通常是店長和陳列師的 KPI),表徵單位面積區域對客戶的吸引能力。

通過實現對場內精細客流的統計、客流軌跡的刻畫和熱區的分析,刻畫場內用戶行爲,給到商家科學的可視化的數據,幫助商家合理規劃顧客行走路線、洞察品類、洞察商品相關性,從而實現品類調換,佈局優化,以及更加精準的定位人貨場關係。

人臉核身技術的實踐

在零售的場景中,客流統計、屬性分析以及 VIP 客戶識別的過程跟安防不太一樣,安防大多是局域網的環境,從攝像頭到處理單元基本上都在同一網絡內。但零售場景的遍佈全國各地線下商家非常多,攝像頭佈置在門店中,數據處理則一般放在雲端,這勢必會產生這樣的問題:攝像機的視頻如果上傳時帶寬不夠該如何解決?常規的處理思路一般是使用 AI 攝像頭,在攝像頭側進行 AI 預處理。對於沒有智能的傳統碼流機,騰訊優圖會提供盒子類的解決方案。

在當今這個人工智能惠及生活的時代,大部分用戶都有這樣的疑問:刷臉支付除了考驗人臉識別技術以外,它的安全性如何保證?

首先用戶需瞭解刷臉支付的開通流程。用戶需在終端上先進行人臉檢測,再進行端和雲兩側都需要驗證的活體防攻擊檢測,驗證後會進行人臉核身,就是上傳人臉並與從公安拿到身份證圖片進行比對,驗證本人身份。如果確認,即可開通免密刷臉支付。刷臉支付的使用過程與開通區別不大,但由於用戶規模過大,使用上億人臉庫用來做支付的準確率和風險較大,所以在進行人臉檢測後,通常會要求用戶輸入手機號進行二次確認。但從長遠來看,輸入手機號的過程最終將會淘汰。

對於人臉支付硬件,其中有兩個十分重要的特性,一個是 3D 攝像頭,它主要是進行活體檢測。第二,是在流程當中進行檢測、跟蹤、優選、活體算法的前項計算過程。最早騰訊優圖推出交互式的活體,通過搖頭、眨眼動作驗證真人身份,緊接着推出針對手機的應用場景推出光線活體檢測,以及針對通用設備的紅外活體檢測以及 3D 活體檢測。

紅外雙目活體檢測方案採用的是雙目攝像頭,檢測過程中輸出一張 RGB 圖與一張紅外圖,其算法原理是利用人的皮膚與紙張對紅外光的反射不同,以此保證檢測精度。但如若找到一種與皮膚相類似的材料進行檢測,就不能保證識別的安全性,所以紅外雙目活體多用於刷臉開門等場景。

針對有着更高安全要求的刷臉支付,通常會使用 3D 攝像頭配合檢測,並輸出一張 RGB 的圖與一張人臉深度圖,紙張等平面不存在深度信息,但人臉是有三維深度信息的,其輸出的人臉深度圖就可以用來做活體檢測。

除了深度的要求以外,在實際應用中 RGB 攝像頭的成像質量也至關重要。其實,技術人員是很難判斷人臉支付 POS 機所處的具體環境,比如,若 POS 機放置於窗邊,識別時人臉處於背光的場景,從而無法進行識別,這些都會給 RGB 成像帶來巨大挑戰。這時通常需要與 3D 攝像頭的廠商明確,要求攝像機需優化到適配不同場景都能進行正常識別工作。

有了硬件之後,爲了保證算法的流暢運行,還需進行性能加速。NCNN 是目前騰訊優圖已經開源的移動端高性能前向計算框架,它支持卷積神經網絡,支持多輸入和多分枝的結構,支持多核並行加速,可擴展的模型設計,8bit 而量化半精度的存儲,內存佔用率比較低,計算速度較快。

而爲解決維護成本高、網絡不斷加深、用戶規模龐大等問題,騰訊優圖在 NCNN 框架的基礎上推出擁有跨平臺、高性能、模型壓縮、代碼裁剪的 RapidNet 深度學習推斷框架。它可以在各個平臺上提供統一的接口,在性能優化上更加極致。但由於 CPU/GPU 交互延遲高,參數傳輸、數據拷貝耗時過多;網絡中部分層運算量小,GPU 並行度不足;多路處理 CPU 性能不足,負載過大等原因,異構多核 CPU/GPU 加速技術成爲了 RapidNet 主要的核心特性之一。其深度融合了基於 AMD 平臺的 OpenCL GPU 並行計算加速技術和基於 IOS 平臺的 Metal 加速技術,完美解決以上問題。

在零售方案中,由於線下門店遍佈全國,設備以及服務的可靠性也是至關重要的。騰訊優圖在終端上設計了分層架構,無論前端設備是什麼,其接入取流是獨立的一層。把 AI 相關的處理包括檢測、跟蹤、優選以及軌跡處理放於算法層。在算法層之上是服務監控層,監控包括設備的監控、服務的監控。在設備層監控服務基礎之上是網絡監控層,通過分離架構的設計兼容多個終端設備,保證服務的可靠性。

語音識別技術的應用

現如今,語音合成若不侷限於時效性,完全可以做到與人類相似,語音合成技術也多被運用到導航、智能客服等場景。

語音和聲音其實並不相同,聲音包括大家所能聽到的聲音包括風聲、水聲、車聲、動物生,語音是指人的發生器官發出具有一定社會意義的聲音。語音是人的聲音,機器可以理解的信號通常使用的是音頻信號,音頻信號是一個有規律聲波的信號變化和載體,其特點是採樣率、量化位數和編碼算法。其中,量化位數是每個點採集的信息量,最常見的是 16 比特;在語音識別領域通常使用未壓縮無損的編碼算法進行存儲。

以智能客服爲例,從人開始說話到傳輸音頻信號到雲端,再做語音檢測、語音識別,之後進行意圖識別,由於通話不僅是一句話就可以完成,所以還需進行任務決策與目標引導,引導完成後再進行播報。其中,當用戶在說話時,從電話裏可能會夾雜很多噪聲,這時語音活動檢測能準確的把關注的話語內容挑選出來,從而進行語義理解。

其中,語音識別技術是把人類語音中的詞彙內容轉換成計算機可讀的輸入,簡單來說就是把語音轉爲文本。當音頻信號產生後,被傳輸至雲端,也就是解碼器。而解碼器中的聲學模型會把音頻信號轉化成建模單元,建模單元通常爲拼音,之後接入詞典,通過詞典把拼音轉化爲文本,把發音相近的字或詞挑選出來;語言模型部分,把最有可以的字或詞按照時序組合出來,顯示爲識別結果文本。

最爲常見的聲學模型網絡包括 DNN 網絡以及 CLDNN 網絡。其中,基礎的 DNN 網絡,下層爲輸入層,中間包含若干隱層,上層爲輸出層。而較爲通用的 CLDNN 網絡,C 就是卷積網絡,L 是 LSTM 網絡,D 就是 DNN,其特點爲快速收斂,可快速達成較好的識別效果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章