論文筆記之Pose-aware Multi-level Feature Network for Human Object Interaction Detection

利用姿態線索來放大人體的有關局部區域來獲得細粒度的信息,然後結合整體特徵獲得最終結果。
被ICCV2019接收
論文地址:https://arxiv.org/pdf/1909.08453

1.摘要

推理人機交互是以人爲中心的場景理解中的一個核心問題,由於人類物體配置的巨大變化、多個共生關係實例以及關係類別之間細微的視覺差異,檢測這種關係對視覺系統提出了獨特的挑戰。

爲了解決這些問題,本文提出了一種多層次的關係檢測策略,該策略利用人的姿勢線索來捕捉關係的全局空間結構,並作爲一種注意機制來動態地放大人的局部相關區域。

具體地說,開發了一個多分支深層神經網絡來實例化多級關係推理,它由四個主要模塊組成:主幹模塊、整體模塊、放大模塊和融合模塊。

  • 給定一幅圖像,主幹模塊計算其卷積特徵圖,生成人體物體建議和空間配置。
  • 對於每個proposal,整體模塊集成了人、物體及其聯合特徵,以及人類姿勢和物體位置的編碼。
  • 放大模塊提取人體部分和物體特徵,並從姿勢佈局中產生部分級別的注意,以增強相關的部分提示。
  • 融合模塊將整體和部分級別的表示結合起來,生成HOI類別的最終分數。

2. 相關工作

由於人的物體外觀和空間形態的巨大變化,多種共存關係,相似關係之間的細微差別等原因,目前人物交互領域仍然存在着巨大的挑戰。

大多數現有的HOI檢測工作都是通過在視覺目標層次上進行推理交互來解決這個問題的。主要的方法通常從一組人-物體建議開始,提取人和物體實例的視覺特徵,並結合它們的空間線索來預測這些人-物體對的關係類。儘管結果令人鼓舞,但在處理相對複雜的關係時,這種粗略的推理仍有一些缺點。首先,由於缺少上下文提示,很難確定人-物體對實例與目標級表示的關係,這可能導致錯誤的關聯。此外,許多關係類型都是根據細粒度操作定義的,而細粒度操作不太可能基於類似的目標級特性進行區分。例如,它可能需要一組詳細的局部特徵來區分運動場景中的“保持”和“捕捉”。此外,由於這些方法在很大程度上依賴於整體特徵,關係的推理過程是一個黑箱,很難解釋。

人-物交互(HOI)檢測對於理解複雜場景中的人的行爲至關重要。近年來,研究者們開發了一些人-物交互數據集,如V-COCO和HICO-DET。早期的研究主要集中在利用多流信息處理HOIs識別,包括人、物體外觀、空間信息和人體姿態信息。在HORCNN中,Chao等人提出多流融合人、物和空間配置信息來解決HOIs檢測任務。齊等人提出了一種圖形解析神經網絡(GPNN),將結構化場景建模爲一個圖形,在每個人和物體節點之間傳播信息,並對所有節點和邊緣進行分類,以確定其可能的物體類別和行爲。

有幾次嘗試使用人體姿勢來識別細粒度的人體相關動作。方等人利用成對的人體部位相關性來幫助解決HOIs檢測問題。Li等人探索多個數據集中先前存在的交互性,將人體姿態和空間構型結合起來形成姿態構型圖。然而,這些工作只將人體姿態作爲人體各部分與物體之間的空間約束,而沒有利用人體姿態來提取各部分的放大特徵,從而沒有爲HOI任務提供了更多的細節信息。

3.本文方法

3.1 總體結構

在這裏插入圖片描述
網絡總共包括4部分,分別爲backbone、整體模塊、放大模塊、融合模塊。
對於一對人-物目標提議和相關的人體姿勢,主幹模塊旨在獲取卷積特徵圖和空間配置圖(SCM)。整體模塊(Holistic Module)生成目標級(整體)特徵,放大模塊(Zoom-in Module)捕獲部件級(部分)特徵。最後,融合模塊結合整體層和部分層的線索來預測HOI類別的最終得分。

公式化:

給定一幅圖像I,人物交互檢測的任務是爲圖像中的所有HOI實例生成元組在這裏插入圖片描述。這裏xh表示人實例位置(即邊界框參數),xo 表示物體實例位置,co是物體類別,a(h,o)表示與xh和xo關聯的交互類。
對於一對{xh;xo},本文使用在這裏插入圖片描述來表示是否存在交互類a。物體和關係集C和A被作爲檢測任務的輸入。

作者採用假設和分類策略,首先生成一組人-物體proposal,然後預測它們的關係類。

在proposal生成階段,對輸入圖像應用一個目標檢測器(例如,Faster R-CNN),並獲得一組檢測分數爲{xh;sh}的人體proposal,以及具有類別和檢測分數{xo;co;so}的物體proposal。HOI proposal是通過將所有人和物體proposal配對生成的。

在關係分類階段,首先估計每個交互作用a和給定{xh;xo}對的關係得分在這裏插入圖片描述。然後,將關係分數與關係實體(人和物體)的檢測分數相結合,生成元組在這裏插入圖片描述的最終HOI分數在這裏插入圖片描述,如下所示,
在這裏插入圖片描述
其中採用了一種軟評分融合方法,將人體評分sh與目標評分so同時融合,體現了每一個proposal的檢測質量。

爲了獲得關係得分在這裏插入圖片描述。爲此,首先將現成的姿勢估計網絡應用於proposal xh的裁剪區域,該proposal xh生成姿勢向量在這裏插入圖片描述,其中pkh是第k個關節位置,k是所有關節的數目。

3.2 Backbone

本文采用ResNet-50-FPN作爲backbone用來提取圖像特徵。利用Faster R-CNN生成關係proposal對{xh,xo}。

除了conv特徵外,還提取了一組幾何特徵來編碼每個人類物體實例的空間配置。從人類和物體的聯合空間的二元掩模開始,捕捉目標級的空間配置。此外,爲了獲取人體各部分和物體的精細空間信息,本文添加了一個附加的人體姿勢圖,其中包含預測的姿勢。具體地說,將估計的人體姿態表示爲一個線圖,其中所有關節都根據COCO數據集的骨架結構連接起來。作者使用寬度爲w=3像素和一組強度值(範圍從0.05至0.95),以均勻間隔表示不同的人體部位。最後,將聯合空間中的二值掩模和位姿映射重新縮放到M × M,並以channel-wise方式拼接以生成空間配置映射。

3.3 Holistic Module

在這裏插入圖片描述
整體模塊由四個基本分支組成:人分支、物體分支、聯合分支和空間分支。
根據人提議xh、物體提議xo及其聯合提議xu,應用RoI-Align從卷積特徵映射中裁剪出人、物體和聯合分支的輸入特徵。xu定義爲空間區域中同時包含xh和xo的最小box。然後將人體特徵、物體特徵和聯合特徵重新縮放到Rh × Rh分辨率。空間分支的輸入直接來源於backbone生成的空間配置圖。對於每個分支,採用兩個全連接層將特徵嵌入到輸出特徵表示中。
將人、物、聯合以及空間特徵的輸出特徵表示爲fh、fo、fu、fs,並將所有特徵拼接起來,得到最終的整體特徵:
在這裏插入圖片描述

3.4 Zoom-in Module

雖然整體特徵爲交互提供了粗略的層次信息,但許多交互類型是在精細的層次上定義的,這需要詳細的人的部分或物體的局部信息。因此,作者設計了一個放大(ZI)模塊來放大人體部分以提取零件級特徵。整體放大模塊可視爲一個網絡,以人體姿態、物體提議和卷積特徵圖爲輸入,爲HOI關係提取一組局部交互特徵:
在這裏插入圖片描述
在這裏插入圖片描述
放大模塊由三個組件組成:
i)旨在提取細粒度人體部件特徵的部分裁剪組件;
ii)將空間信息分配給人體部件特徵的空間對齊組件;
iii)語義注意力部分,增強與交互相關的人類部分特徵,抑制不相關的特徵。

(1)部分裁剪組件

給定人體姿勢向量ph={ p1 h;:::;pKh },我們爲每個關節pk h定義一個局部區域xpk,該區域是以pk h爲中心的框,其大小與人體提議xh的大小成比例。採用RoI Align與物體建議xo一起生成(K+1)個區域並重新縮放到Rp × Rp的分辨率。
將集合的零件特徵和物體特徵表示爲fp={ fp1;:::;fpK}和fpo,其中每個特徵的大小爲Rp × Rp × D。

(2)空間對齊組件

許多交互行爲都與人體各部分和物體的空間結構有很強的相關性,可以通過人體各部分和物體之間的相對位置進行編碼。例如,如果目標物體靠近“hand”,則交互更可能是“hold”或“carry”,而不太可能是“kick”或“jump”。在此基礎上,作者引入(x,y)座標作爲相對於物體中心的空間偏移作爲每個部分的附加空間特徵。

作者生成了與卷積特徵映射在這裏插入圖片描述具有相同空間大小的座標映射α 。α 特徵圖由兩個通道組成,指示在這裏插入圖片描述中每個像素的x和y座標,並由物體中心進行標準化。然後,對每個人類部分xpk以及對α上的物體建議xo應用RoI Align,得到k部分的空間映射 αk和物體的空間映射 αo。作者將空間映射與部分裁剪特徵連接起來,以便對於Rp × Rp裁剪的部分區域,將相對空間偏移與每個像素對齊,從而使用細粒度的空間線索來增強部分特徵。最後的第k個人體部件特徵和物體特徵是:
在這裏插入圖片描述
(3)語義注意力組件

作爲姿勢表示的語義注意力組件也編碼了人類部分的語義類,它們通常與交互類型有很強的相關性(例如,“眼睛”對於“閱讀”一本書很重要)。因此,本文使用來自backbone的相同空間結構圖來預測語義注意力。

語義注意力網絡由兩個全連接層組成。在第一層之後採用ReLU層,在第二層之後使用Sigmoid層將最終預測規範化爲[0,1]。作者把推斷的語義注意力表示爲 β。需要注意的是,並不預測物體的語義注意力,並且假設物體的注意值始終爲1,這意味着它在不同的實例中具有一致的重要性。語義注意力用於按如下方式對零件特徵進行加權(按元素相乘):
在這裏插入圖片描述
最後,將人類零件特徵和物體特徵連接起來,以獲得零件級特徵fatt,並將其傳到多個全連接層(FC)以提取最終的局部特徵 Floc:
在這裏插入圖片描述

3.5 Fusion Module

爲了計算每個交互a的人-物對{xh,xo}的得分在這裏插入圖片描述,使用了一個融合模塊來融合不同層次的關係推理。

融合模塊旨在實現以下兩個不同的目標。

  • 首先,它使用粗級別的特徵作爲上下文提示來確定是否存在針對人-物體建議的任何關係。這可以抑制許多背景對,提高檢測精度。
    具體地說,將整體特徵引入一個網絡分支,該分支由一個兩層全連接的網絡和一個sigmod狀函數構成,該網絡分支產生一個相互作用的親和度得分SG:
    在這裏插入圖片描述

  • 其次,融合模塊利用目標級和部分級的特徵來確定基於細粒度表示的關係評分。使用類似的網絡分支,從所有關係特徵計算局部關係分數sL:在這裏插入圖片描述
    其中a表示關係類型。

  • 最後,將上面定義的這兩個分數進行融合,以獲得針對人-物提議的關係分數{xh;xo}
    在這裏插入圖片描述

3.6 模型訓練

凍結ResNet-50,訓練FPN部分和其他組件。目標檢測器(Faster R-CNN)和姿態估計器(CPN)是外部模塊,不參與學習過程。

分類任務實際上是一個多標籤分類的問題,對每個關係類和交互親和力採用二元交叉熵損失,總體的損失函數如下:
在這裏插入圖片描述
SL爲局部關係得分;SG爲親和力(affinity)得分;N爲訓練集;A爲交互集;yi爲第i個例子的真實值;zi(0,1)指示第i個例子的相關性;

4. 實驗

(1)在V-COCO 測試集上的表現對比如下:
在這裏插入圖片描述
(2)在HICO-DET測試集上的表現如下:
在這裏插入圖片描述
(3)在V-COCO驗證集上的消融實驗情況:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章