StartDT AI Lab | 視覺智能引擎——Re-ID賦能線下場景顧客數字化

人貨場的思路是整個新零售數字化鏈路的核心,人是整個業務生命週期的起始點,圖像算法的首要目標就是從圖像中得到“人” 。前一篇我們主要講了Face ID的發展,Face ID幫助商家賦能了線下用戶畫像,把視覺計算的熱情帶到支付、安防等各行各業。

誠然,分析人的方式多種多樣,各種分析行人的算法中,Face算法在其中有着得天獨厚的優勢,它在驗證身份方面是最精準的(可以精確到支付驗證),但Face算法在數量統計的準確度肯定不是最優的。因爲很多場景下的Face ID受到了光照遮擋的影響,質量參差不齊,所以基於行人身體的識別訴求便越來越強。

我們常說一套算法系統是一個此消彼長,魚和熊掌不能完美兼得的,這裏的魚指的是準確率--精確的識別人(face技術),熊掌指的是召回率--全面抓到行人(body技術)。只有當face技術和body技術緊密結合時,我們整個場景人的分析才能全面覆蓋,人這個維度分析才能更有價值。那麼下面我將着重講講整個行人識別的整體技術鏈路。

01 人體檢測

通過計算機視覺信號對人的相關信息進行結構化提取,第一步通常是人體檢測。由於奇點雲商業賦能的相關產品和系統在廣泛的商業場景中大量鋪開,所以對人體檢測的魯棒性提出了較高的要求。在無約束的視覺場景下,人體檢測主要碰到的問題有:

  1. 尺度變化大:人的身材大小不一,大人和小孩的比列會相差很大。行人距離攝像頭的遠近也會造成很大的尺度變化。尤其是這兩種尺度問題疊加,造成的困難就更大了。

  2. 人體姿態變化大:直立行走、彎腰勞動、坐着休息、三五結伴等等,都會帶來人體形態的巨大變化。

  3. 攝像頭造成的畸變:目前行人檢測所賦能的場景和商業盈利的要求,都對行人檢測相關硬件的成本做出了比較大的限制。所以,由於攝像頭本身成像質量和部署所帶來的圖像畸變是很常見的,而這對人體檢測又帶來了很大幹擾。

  4. 影像模糊:行人檢測訓練中,由於行人所在的場景及其廣泛,作爲負樣本的背景常帶有形狀、紋理、外觀等於人體相像的景狀物,加上光照角度等影響,使得一些負樣本可以以假亂真。

  5. 遮擋:在行人密集的場景中,行人之間會互相遮擋,在不同的場景中穿梭,也常常使得部署位置固定的攝像頭無法完整地檢測到人體,這也對人體檢測帶來了很大困難。

  6. 速度要求:人體檢測所賦能的場景往往是類安防的場景,其所需處理的數據量巨大,所以爲了保障一些業務實時性的要求,對人體檢測模型的檢測速度就提出了較高的要求。而人體檢測由於本身任務較難,模型較大,想要提升速度而不降低準確性,對技術的要求就更高了。

StartDT AI Lab針對以上的一系列問題,展開了針對性的攻堅工作:

✨在數據準備上,下了很大的成本,通過自行標註整理,形成了百萬級的數據樣本庫,尤其在零售商業場景下的行人標註,積累十分豐富。

✨在模型算法方面,充分借鑑了目前主流的鋪設錨點框和新近取得較大突破的關鍵點檢測類的方法。通過不斷的迭代和實驗,目前算法在準確率和召回率方面都已經可以充分滿足當前業務場景下的人體檢測任務。

✨在模型推斷速度的提升方面,StartDT AI Lab主要從兩方面入手來壓縮模型計算複雜性。一方面,壓縮backbone神經網絡,在儘可能不降低特徵提取性能的前提下,減小backbone尺寸。另一方面,優化檢測頭模塊,保障檢測器整體性能不降低。通過不斷的版本迭代,目前模型尺寸已經只有第一代模型的十分之一以下,在同等計算資源下,模型的處理效率有了巨大的提升。

02 行人重識別

行人重識別的技術本身是從度量學習這個大類脫胎而來,和人臉識別要解決的是一類問題——檢索。通過檢索,我們希望行人的空間信息和時間信息能夠關聯和聚類到一起,那麼重識別就很容易理解了,在一個攝像頭出現的某個行人,如果我們可以找出在其他攝像頭中出現的蹤跡,那麼就完成了一次跨境追蹤。

試想這樣的場景如果在迪斯尼樂園/機場/大學校園裏和孩子走散了,除了廣播“xx小朋友你的家長在廣播室等你”的被動方式。我們可以翻開實點圖就找到熊孩子。而實點圖就可以通過重識別來實現:主動輸入小朋友的照片,檢索多個不同位置的攝像頭下的當前幀,找到熊孩子的出現攝像頭。最後聯繫攝像頭的位置,就可以定位孩子了。這個應用同樣也可以用來找小偷/保護vip等等。這樣的想象空間確實給人以極大的振奮,但如此具有未來感的畫面也不是一蹴而就的。StartDT AI Lab背後大量的技術支撐纔能有讓行人重識別技術發揮其應有的作用:

1.Body-Tracking機制:在視頻結構中的行人追蹤可以規約爲多目標跟蹤問題,我們主要通過濾波和貪心算法結合的手段整合每個行人ID所關聯的信息,在短時間的範圍內,追蹤可以將某個行人的行人框根據前後幀的關聯性,快速匹配,這樣的好處有兩點:一個是增加空間的連續性,在一段視頻幀中前後幀之間有着行人的空間信息,追蹤就可以將它們的空間信息統一在一起;二是節約了計算成本,在整個追蹤過程中只需有代表性的分析某幀數據,便可以對整體信息有一個較高維度的把控。

2.人體骨骼點分析:對於行人重識別來說,通過計算機視覺技術,獲取人體的骨骼點,這些關鍵點能爲行人重識別提供關鍵先驗知識。首先,不是所有檢測出的行人都適合去做重識別,其中不完整的行人,分辨率過低的行人對模型會產生一定的影響,爲了避免這些髒數據的影響,骨骼點就可以提供一定過濾作用,通過骨骼點數量我們對行人的完整度有一個定性的評估。同時,骨骼的位置信息也是我們行人對齊的關鍵所在,不同的行人的姿態和位置是需要通過骨骼關鍵點來完成對齊的,通過對齊行人特徵,減少身體部件錯位對結果產生較大影響。

3.Person Re-identification:行人重識別是通過在監控視頻中,用Re-ID模型對行人的圖片進行特徵抽取,這個特徵所呈現的特點是相似的行人距離較近,不同的行人距離較遠,這個高維度embedding的特徵就可以幫助我們找到不同攝像頭下,相同的行人。雖然技術很新很先進,但在實際場景中,我們分析行人圖片時,無法避免的產生了行人不完整的現象,如果我們直接過濾掉這些行人,那麼在更高層的數據統計維度產生的系統誤差將爲對召回率產生較大影響,在行人不完整時,我們被業務倒逼去使用殘缺人體進行比對。我們有意在模型訓練時增加這樣的噪音數據,同時通過無監督的方式對身體特徵對齊,提高了算法對不完整行人的魯棒性。

StartDT AI Lab | 視覺智能引擎——Re-ID賦能線下場景顧客數字化

03 樣本生成

數據樣本是人工智能技術的基礎,然而數據的積累是極其費時、費力又費錢的一項工作,儘管當前存在一些數據可觀的公開數據集,然而這些數據集本身存在樣本分佈不均衡,樣本多樣性差等問題。另外不同應用場景下的數據分佈之間存在一定的區別,導致模型的泛化能力會嚴重降低,因此就必須進行實地數據標註,Re-ID樣本的標註尤爲困難。

在項目中,由於現場攝像頭畫面的行人數據分佈與公開數據集之間存在巨大domain差異,因此採用公開數據集訓練的Re-ID模型在該場景下的準確率較低,無法滿足實際需求。針對此問題,我們採用生成對抗網絡(GAN)將公開數據集中的行人轉化成實際場景下的圖像風格,重新進行訓練後,模型準確率提升了50%以上。此外,我們還通過GAN的方式實現行人姿態的變化,以提高數據集的多樣性;通過注意力機制,強化學習行人除衣着之外的特徵(頭部,四肢等),以解決行人換衣導致的準確率下降的問題。

風格遷移:

StartDT AI Lab | 視覺智能引擎——Re-ID賦能線下場景顧客數字化
風格遷移前

StartDT AI Lab | 視覺智能引擎——Re-ID賦能線下場景顧客數字化
風格遷移後

行人服裝更換:

StartDT AI Lab | 視覺智能引擎——Re-ID賦能線下場景顧客數字化
StartDT AI Lab | 視覺智能引擎——Re-ID賦能線下場景顧客數字化
通過以上技術展示,讀者對於行人重識別(Re-ID)這項技術有了全面的瞭解,也對奇點雲對於技術的極致追求有了新的認識。遊離在VIP體系之外的稀疏用戶行爲,正是通過行人識別技術,將其落袋到整個客流畫像之中,爲動線分析,熱力分析提供了可能性。同時也彌補了Face ID無法作用於廣義統計維度的短板,StartDT AI Lab通過各種算法相互協同並取長補短,產生了微妙的化學反應,最終重新定義了客流系統,將商家的分析維度達到了新的高度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章