一個算法“拿下”兩個榜單!愛奇藝ICCV 2021論文提出人手三維重建新方法

2016年,Facebook正式發售Oculus Rift頭戴式VR設備,大大革新了人們對於VR技術的認知,這一年也因此被稱爲VR元年。5年過去,現在VR技術發展到哪了?從原生VR遊戲《半條命:愛莉克斯》來看,在這類遊戲場景下,人們與虛擬世界的交互已經非常成熟。


《半條命:愛莉克斯》


但龐大的頭顯設備,仍是阻礙VR應用普及的重要原因。還以《半條命:愛莉克斯》爲例,這部遊戲的精華是在於手部交互,而實現撿東西、扔東西、扣動扳機等等複雜的虛擬交互,則需要一部VR頭盔和一部VR手柄才能完成。


近日,計算機視覺領域國際頂會 ICCV 2021 收錄了一篇題爲“I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling”論文,論文由愛奇藝深度學習雲算法團隊聯合慕尼黑工業大學學者完成,他們在論文中提出一套名爲I2UV-HandNet高精度手部重建系統,通過“看”單目RGB人手圖片,就能實現高精度三維重建。


論文地址:

https://arxiv.org/abs/2102.03725


言外之意,如果將這項技術“適配”到帶有攝像功能的眼鏡或者頭盔中,那麼使用者即使不用手柄,也能實現與虛擬世界的高質量對話。


重建效果如何?該論文在已經在頗受認可的HO3D在線測評榜上,力壓羣雄,持續數月排名第一。在Freihand 在線測評榜上,截至論文編寫時仍排名第一。


HO3D 榜單排行結果,紅框處爲愛奇藝


論文編寫時Freihand榜單排行結果,紅框處爲愛奇藝


目前,研究員們正在嘗試將該技術應用到愛奇藝下一代VR設備中,從而減少對手柄依賴,打造出更輕、更快、更舒適的VR設備。同時手勢重建、交互技術目前也同步在愛奇藝其他業務場景和硬件終端進行落地探索,相信不久後會相繼和用戶見面。


01

I2UV-HandNet:業界首創的手部三維重建技術


在人機交互和虛擬現實的應用中,高精度的人手三維重建技術發揮着重要作用。但由於手勢多變以及嚴重的遮擋,現有的重建方法在準確性和精度方面仍差些火候。


一方面,目前學術界在進行手部三維重建評測,如在Freihand數據集上進行評測主要是突出算法的精度優勢,不需要考慮算力、延遲等,所以可以採用計算複雜度非常高(如transformer等)的一些算法。


另一方面在工業界,特別是VR等移動端設備,在算力、功耗、電池的續航及發熱等各方面有嚴格限制,在應用上必須採用計算複雜度偏低的算法。


而VR等設備的攝像頭因爲移動端硬件的功耗、續航限制必須降低清晰度而不是採用高清晰度的攝像頭,採集到的圖像清晰度相對偏低,這對於算法的識別就存在一定挑戰性。


I2UV-HandNet框架圖,由AffineNet和SRNet組成


愛奇藝這篇論文中提出的I2UV-HandNet,獨創性地將UV映射表徵引入到三維手勢和形狀估計中,其設計的UV重建模塊AffineNet能夠從單目圖像中預測手部網絡(hand mesh),從而完成由粗到精的人手3D模型重建。


這一設計意味着對於三維重建中所需的空間中的景深信息,不用再通過昂貴的硬件完成偵測,在普通RGB攝像頭拍攝的圖片中就可以完成景深信息獲取。


I2UV-HandNet另一個組成部分是SRNet網絡,其作用是對已有人手三維模型進行更高精度的重建。SRNet網絡以研究團隊獨創的“將點的超分轉化爲圖像超分的思想”爲原則,實現在不增加過多計算量的情況下,進行上萬點雲的超分重建。


此外,由於缺乏高保真的手部數據來訓練SRNet,研究團隊構建了一個名爲SuperHandScan的掃描數據集訓練SRNet。由於SRNet的輸入是基於UV的“粗糙”手部網格。因此SRNet的應用範圍很廣,換句話說,一個“訓練有素”的SRNet可以對任何粗手部網格進行超分辨率重建。


據介紹,SRNet和AffineNet組成的I2UV-HandNet系統,未做任何優化情況下,能夠在nvidia v100達到46fps;而經過工程優化後版本能夠在驍龍865CPU+DSP下達到實時。


在FreiHAND上進行真實場景下多姿態的人手3D重建對比,↓表示越低越好,↑表示越高越好。


爲了驗證I2UV-HandNet方法對姿態的魯棒性,研究團隊選用了包含大量姿態的真實人手數據集FreiHAND作爲測試集,並通過FreiHAND Competition在線測評與相關SOTA工作進行對比,結果如上表所示,證明了該UV重建方法的有效性。


在HO3D上進行真實場景下具有遮擋的人手3D重建實驗對比,↓表示越低越好,↑表示越高越好。


同時爲了驗證在各種遮擋場景下的重建性能,研究團隊選取包含大量遮擋樣本的HO3D數據集進行測評,結果如上表所示,各項指標也都達到了SOTA。


↓表示越低越好,↑表示越高越好


爲了定量評價SRNet,研究團隊還在HIC數據集上進行了實驗。如上所示,SRNet的輸出(表中的“OUTPUT”)得到了優於原始深度圖的結果。


02

模型介紹:AffineNet+SRNet=I2UV-HandNet


AffineNet網絡框架圖,AffineNet由編碼網絡和解碼網絡組成,在解碼時通過Affine Conection和多stage完成由粗到精的UV學習



如上圖所示,AffineNet由編解碼網絡組成,編碼骨幹網絡ResNet-50,解碼時採用由粗到精的層級結構,其中Affine Connection是指通過當前層級預測的UV用仿射變換(類似STN)的方式實現編碼特徵向UV圖的對齊,即:


同時有:


以及:



其中   表示   分辨率下的編碼特徵圖,   (x)表示將x放大2倍,   表示根據稠密的   在固定投影矩陣的投影座標,   表示Affine Connection操作,   表示通過仿射變換後與UV對齊後的特徵圖,相對於   ,其包含更多與手相關的特徵。   表示   分辨率下的解碼特徵圖,   表示表示卷積操作。通過上面兩個公式看出,解碼過程本質上就是一套低分辨率UVmap到高分辨率UVmap重建的過程,同時也是3D點雲重建由粗到精的過程。


AffineNet的損失函數分爲3項:


其中,使用L1作爲UV的重建Loss:


   爲真實UV圖,   爲重建結果,M爲UV的3D手有效映射掩碼。


UV圖本質上可以看成將3D模型上每個三角面不重疊地映射到二維平面,所以在UV圖上對應的三角片區域的值應該是連續的,因此引入Grad loss:


其中   和   分別表示在UV圖的U軸和V軸方向求梯度。


在訓練階段對分辨率最大的4個stage(即i=0,1,2,3)重建的UV進行   優化,其中   =   =   =1,投影矩陣選用正投影矩陣,每個stage間的loss比例都爲1。


SRNet每層的設置


SRNet的網絡結構類似於超分辨率卷積神經網絡(SRCNN),輸入和輸出是UV圖而非RGB圖像。


研究團隊巧妙地通過UV圖的方式將點的超分轉換爲圖像的超分,將僞高精度UV圖作爲輸入,高精度UV圖作爲標籤,通過僞高精度3D模型生成的UV圖到高精度3D模型生成的UV圖的超分學習,完成1538個面到6152個面,778個點到3093個點的超分學習,超分Loss設計如下:


在測試階段只需要將AffineNet重建的UV圖作爲輸入,便可得到經過超分重建後的高精度UV圖,從而實現人手的高精度3D重建。


將AffineNet和SRNet結合成I2UV-HandNet系統便可完成High-fidelity的人手3D重建。爲了快速驗證將點的超分轉化爲圖像的超分的可行性,研究團隊將SRCNN網絡結構用於SRNet中,並選取SHS數據集進行訓練。


Batch size設置爲512,輸入UV圖的大小爲256*256,初始學習率爲1e-3,優化器Adam,並採用cosine lr下降方式,並在scale、旋轉等方面進行數據增廣。


同時爲了網絡模型具有更好的泛化性,也隨機對高精度UV圖進行高斯平緩處理,並將結果作爲網絡的輸入。在測試時,將AffineNet輸出的UV圖作爲SRNet的輸入實現I2UV-HandNet系統的high-fidelity3D人手重建。


在HO-3D數據集(左)和FreiHAND數據集(右)上的重建結果。從左到右依次爲:輸入、AffineNet的重建結果、SRNet輸出的超分結果(high-fidelity)


上圖顯示I2UV-HandNet在各種姿態和遮擋條件下基於單目RGB圖的人手的High-fidelity的3D重建結果。通過上圖的Coarse Mesh和High-fidelity meshes對比可以看出,通過UV圖超分輸出的包含3093個點/6152個面的3D模型(High-fidelity)明顯要比AffineNet輸出的包含778個點/1538個面的MANO模型(Coarse Mesh)更加精細,具體表現在摺痕細節和皮膚鼓脹等。

 

在論文中,研究團隊還在FreiHAND測試集上進行了Loss分析、Affine Connection存在性、UV展開方式以及由粗到精的方式多項屬性消融的實驗分析,分析結果依次見表4到表7。


不同的UV展開形式




通過實驗分析進一步證明本算法在各方面都具有較好的魯棒性,尤其是對背景具有強抗干擾性,非常適合應用於實際產品中。

03

下一步:“適配”更加豐富的應用場景


手部重建比較與人體重建相似,當前學術界做人體重建的算法可以遷移到手部的應用。但相對於比較火熱的人臉重建,手部和人體存在自遮擋更多,姿態複雜度更高等問題,因此研究難度大,業界可借鑑資料、行業內的應用都相對較少。


但手部、人體重建卻是用自然的肢體語言實現人機交互的關鍵技術,相比一些可穿戴設備,更能帶來體驗和沉浸度。例如手柄無法模擬手指每一個關節的活動,手部重建則能實現更加精細的操控。這意味着遊戲、數字化工廠、虛擬場景培訓等更多場景。


接下來,愛奇藝技術團隊將會致力於算法的計算效率提升,能夠更好的滿足VR設備應用場景對功耗及計算資源的嚴苛要求;同時也會繼續研究當前學術界的一些難題,例如對於重疊/遮擋的手的重建,愛奇藝深度學習雲算法小組也已經開始佈局。

看完心動了嗎?
戳👇“ 閱讀原文”直達招聘頁面
即刻加入愛奇藝!


也許你還想看

ICCV 2019論文 | 愛奇藝提出利用無標籤數據優化人臉識別模型

ICCV 2019 LFR 挑戰賽圓滿結束,我們與3支國內冠軍隊伍聊了下

公開課 | 多模態人物識別技術及其在愛奇藝視頻場景中的應用



 關注我們,更多精彩內容陪伴你!

本文分享自微信公衆號 - 愛奇藝技術產品團隊(iQIYI-TP)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章