快手上線手部姿態估計功能,支持任意手勢姿態估計

隨着技術的發展,研發人員越來越希望尋找一些不同的人機交互方式,其中實時手部姿態估計就是科學家們重點關注的研究方向之一 。簡單的說,手部姿態估計是讓計算機理解人體肢體語言的一種手段。通過該技術,人機交互不再限於文字接口或者鼠標鍵盤控制的用戶圖像界面。

近日,快手上線了手部姿態估計功能,成爲行業首家。

用戶只要按照說明做出相應的手勢,就可以被加上各種有意思的特效。用戶在使用這款產品拍攝時,算法會自動識別出手型類別,並估計手部關鍵點位置。根據關鍵點位置和手型類別,可以產生不同的特效效果或者跟畫面內容進行人機交互。用戶既可以通過手型觸發相應的特效效果,也可以實現指節級精準控制和跟隨。

揭祕手勢識別,快手解決了哪些問題?

手勢識別技術由快手2016年組建的Y-Lab團隊手勢研發小組研發。這一年,爲了研發出更多能給用戶帶來新奇體驗的新技術,快手組建了一支由高學歷研發人員組成的隊伍,研究領域涉及人工智能、機器學習、計算機視覺、計算機圖形學和增強現實等。2018年,爲了讓技術能更好的和產品結合,快手將Y-Lab更名爲Y-tech。

據Y-tech手勢研發組負責人介紹,手勢識別技術是指檢測圖片或視頻中的人手,並預測檢出人手的手型以及關鍵點位置的技術。

常見的手勢識別技術包括:手型識別、二維手部姿態估計和三維手部姿態估計。從手型識別到三維手部姿態估計,需要識別的信息越來越多,研發困難指數級增加。在上面演示的功能裏,就包含了:人手檢測、手型識別和二維手部姿態估計。(請確認有相關功能的演示視頻)

目前手型識別在業界已比較成熟,而二維手部姿態估計目前還不是很成熟,據介紹,快手應該是業界首家在移動端上應用該技術的公司。而三維手部姿態估計技術難度較大,目前只能通過特殊的硬件,比如雙目和深度攝像頭才能實現。

研發手勢識別過程中,Y-tech團隊積累了很多技術和解決方案,包括算法策略、網絡結構設計、模型優化和底層加速等,這些經驗也完全可以複用到其他場景中。

相比於目前人工智能領域落地比較廣泛的人臉識別,手勢識別技術存在着一些技術難點,Y-tech手勢研發負責人表示:“手部的自由度很高,自遮擋嚴重,特徵不明顯,相對人臉會更難一些。”

以快手爲例,目前這一功能可同時檢測多手,支持多達17種手型識別,並能夠識別任意手勢21個二維關鍵點。爲了實現這些功能,研發團隊克服了不少難題:

• 人手在相機中的佔比較小,高效的進行小目標檢測目前在業界是很難的問題;
• 人手自遮擋嚴重、關節活動自由度高;
• 用戶手機只有單目圖像,需純靠視覺算法實現;
• 用戶手機攝像頭拍攝質量不同,用戶在擺同樣手型時方式多樣。

該負責人表示,團隊先是改進了檢測算法的框架,提高了小目標的檢測能力,並且根據人手的特點,融合先驗知識,降低問題複雜度,達到了提升預測效果。

由於不同用戶手機的運算能力是不同的,而同一款軟件要想被更多用戶使用,就要兼顧各種機型的情況,快手AI實驗室通過兩方面解決了這一難題:

一、在算法層面,研發人員設計了高效的神經網絡結構,並且在不同的機型上採用了不同算法策略;

二、在工程實現上,通過快手自研的YCNN對不同手機的硬件架構做了高度的適配和性能優化,能夠使用CPU、GPU、NPU、DSP等多種運行模式,解決了AI技術運行受限於用戶設備計算量的問題。

下一步:未來將嘗試三維手部重建

對於快手來說,在手機應用中增加手勢識別功能是一項嘗試,功能上肯定是有不少需要完善的地方,研發團隊告訴我們,目前該產品算法對運動模糊和手部重疊的處理還不完善,是接下來需要重點解決的問題,並且未來團隊會嘗試在端上進行三維手部重建,爲更精確的動作識別和交互做技術儲備。除了在短視頻領域有所應用,在遊戲、增強現實、直播、教育等領域應用手勢識別技術也將成爲一種趨勢,同樣也是快手探索的方向。

手勢識別技術發展至今,已經有不少企業在不同的領域進行過嘗試,未來手勢識別的應用場景也是十分廣闊的,除了小手識別和運動模糊等傳統問題之外,如何結合端上雙目攝像頭和深度攝像頭信息提升手勢識別效果也將是行業重點關注的問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章