CVPR 2018摘要:第二部分

本文爲 AI 研習社編譯的技術博客,原標題 : NeuroNuggets: CVPR 2018 in Review, Part II 作者 | Sergey Nikolenko、Aleksey Artamonov 翻譯 | 老趙 校對 | 醬番梨 整理 | 菠蘿妹 原文鏈接: https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-ii-4759fd95f65c 注:本文的相關鏈接請點擊文末【閱讀原文】進行訪問

NeuroNuggets:CVPR 2018年回顧,第二部分

今天,我們繼續推出最近的CVPR(計算機視覺和模式識別)會議系列,這是世界上計算機視覺的頂級會議。 Neuromation成功參加了DeepGlobe研討會,現在我們正在看主會議的論文。 在我們的CVPR回顧的第一部分,我們簡要回顧了有關計算機視覺的生成對抗網絡(GAN)的最有趣的論文。 這一次,我們深入研究了將計算機視覺應用於我們人類的工作:跟蹤視頻中的人體和其他物體,估計姿勢甚至是完整的3D體形,等等。 同樣,論文沒有特別的順序,我們的評論非常簡短,所以我們絕對建議完整閱讀論文。

人物:人物識別,跟蹤和姿勢估計

人類非常擅長識別和識別其他人類,而不是識別其他物體。特別是,大腦的一個特殊部分,稱爲梭狀回,被認爲含有負責面部識別的神經元,並且這些神經元被認爲與識別其他事物的神經元有所不同。這就是那些關於顛倒的面孔(撒切爾效應)的幻想來自的地方,甚至還有一種特殊的認知障礙,即失語症,一個人失去了識別人類面孔的能力......但仍然很好地識別桌子,椅子,貓或英文字母。當然,這並不是很清楚,並且可能沒有特定的“個體面部神經元”,但面部肯定是不同的。人類一般(它們的形狀,輪廓,身體部位)在我們的心靈和大腦中也有一個非常特殊的位置:我們大腦的“基本形狀”可能包括三角形,圓形,矩形......和人體輪廓。

人類認知是人類的核心問題,因此它一直是計算機視覺。 早在2014年(很久以前在深度學習中),Facebook聲稱在人臉識別方面達到了超人的表現,而且不管當代的批評現在我們基本上可以認爲人臉識別確實很好地解決了。 但是,仍然有許多任務; 例如,我們已經發布了關於年齡和性別估計以及人類姿勢估計的文章。 在CVPR 2018上,大多數與人類相關的論文要麼是關於在3D中尋找姿勢,要麼是關於在視頻流中跟蹤人類,這正是我們今天所關注的。 爲了更好地衡量,我們還回顧了一些關於物體跟蹤的論文,這些論文與人類沒有直接關係(但人類肯定是最有趣的科目之一)。

檢測和跟蹤:具有姿態估計的兩步跟蹤

R. Girdhar等人,“檢測與跟蹤:視頻中的高效姿態估計”

我們已經利用Mask R-CNN實現分割,這是2017年出現的最有前途的分割方法之一。去年,基本的Mask R-CNN的幾個擴展和修改出現了,卡內基梅隆的合作, Facebook和Dartmouth提出了另一個:作者提出了一個3D Mask R-CNN架構,該架構使用時空卷積來提取特徵並直接識別短片上的姿勢。 然後他們繼續展示以3D Mask R-CNN作爲第一步的兩步算法(以及將關鍵點預測作爲第二步鏈接的二分匹配)擊敗姿勢估計和人類跟蹤中的現有技術方法。 以下是3D Mask R-CNN架構,肯定會在未來找到更多應用:

用於人員重新識別的敏感姿態嵌入

M. Saquib Sarfraz等人,利用擴充的領域重分級敏感姿態嵌入的人員重識別

人員重新識別是計算機視覺中的一個具有挑戰性的問題:如上所示,攝像機視圖和姿勢的變化可能使兩張圖片完全不同(儘管我們人類仍然立即發現這是同一個人)。 該問題通常通過基於檢索的方法來解決,該方法導出查詢圖像與來自某個嵌入空間的存儲圖像之間的鄰近度量。 德國研究人員的這項工作提出了一種將姿勢信息直接納入嵌入的新方法,從而改善了重新識別結果。 這是一個簡短的概述圖,但我們建議你完整閱讀本文,以瞭解如何將姿勢添加到嵌入中:

單張圖像的3D姿勢:從2D姿勢和2D輪廓構造3D網格

G. Pavlakos等人,從單一彩色圖像學習估計3D人體姿勢和形狀

姿態估計是一個衆所周知的問題; 我們之前已經寫過這篇文章並在本文中已經提到過。 然而,製作完整的3D人體形狀是另一回事。 這項工作提出了一個非常有希望和非常令人驚訝的結果:它們直接通過端到端卷積結構生成人體的3D網格,該結構結合了姿勢估計,人體輪廓分割和網格生成(見上圖)。 這裏的關鍵見解是基於使用SMPL,一種統計的身體形狀模型,爲人體形狀提供了良好的先驗。 因此,這種方法設法從單一彩色圖像構建人體的3D網格。以下是一些說明性結果,包括標準UP-3D數據集中的一些非常具有挑戰性的案例:

FlowTrack:關注視頻並關注相關跟蹤

Z. Zhu等,具有時空注意力的端到端流動相關跟蹤

判別相關濾波器(DCF)是用於對象跟蹤的現有技術學習技術。 我們的想法是學習一個過濾器 - 即圖像窗口的轉換,通常只是一個卷積 - 它對應於你想要跟蹤的對象,然後將其應用於視頻中的所有幀。 正如經常發生在神經網絡中一樣,DCF遠非一個新的想法,可追溯到1980年的一篇開創性論文,但它們幾乎被遺忘到2010年; MOSSE跟蹤器開始復興,現在DCF風靡一時。 然而,經典DCF不利用實際視頻流並分別處理每個幀。 在這項工作中,中國研究人員提出了一種建築,其中涉及能夠跨越不同時間框架參與的時空關注機制; 他們報告了大大改善的結果。以下是他們模型的一般流程:

回到經典:相關跟蹤

C.Suni等人,通過聯合歧視和可靠性學習進行相關跟蹤

與前一篇文章一樣,本文致力於跟蹤視頻中的對象(目前這是一個非常熱門的話題),就像前一篇一樣,它使用相關過濾器進行跟蹤。 但是,與前一個形成鮮明對比的是,本文並沒有使用深度神經網絡。這裏的基本思想是在模型中明確地包括可靠性信息,即,向目標函數添加一個術語,該目標函數模擬學習過濾器的可靠性。 作者報告顯着改進了跟蹤,並顯示了經常看起來非常合理的學習可靠性圖:

這就是所有的文章,朋友們。

感謝您的關注。下次加入我們 - 來自CVPR 2018的更多有趣的論文......而且,就像偷看一樣,ICLR 2019截止日期已經過去,其提交的論文已經上線,雖然我們不知道哪些可以接受更多 幾個月我們已經在看他們了。

Sergey Nikolenko Chief Research Officer, Neuromation

Aleksey Artamonov Senior Researcher, Neuromation

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章