用於實時人與物體交互檢測的並行點檢測和匹配

論文來自https://arxiv.org/abs/1912.12898
英語渣渣的閱讀和翻譯


摘要

  • 我們提出了一種單階段的人與對象交互(HOI)檢測方法,該方法在單個Titan XP GPU上以37fps的速度勝過HICO-DET數據集上的所有方法。這是是第一種實時的HOI檢測方法。常規的HOI檢測方法包含兩個階段,即人爲對象提案的生成和提案的分類。它們的有效性和效率受到順序和單獨的體系結構的限制。本文提出了一種並行點檢測與匹配(PPDMHOI檢測框架。在PPDM中,HOI定義爲三元組<人的點,交互點,對象點>。人和物體點是檢測框的中心,交互點是人和物體點的中點。PPDM包含兩個並行分支,即點檢測分支和點匹配分支。點檢測分支預測三個點。同時,點匹配分支預測了從交互點到其對應的人和物點的兩個位移。來自同一交互點的人類點和對象點被視爲匹配對。在我們新穎的並行框架中,交互點隱式地爲人和物體的檢測提供了上下文和規則化。抑制了不太可能形成有意義的HOI三元組的獨立檢測框,從而提高了HOI的檢測精度。此外,人和物體檢測盒之間的匹配僅適用於過濾後有限數量的候選交互點,從而節省了大量的計算成本。此外,我們建立了一個新的名爲HOI-A的面向應用程序的數據集1,它是對現有數據集的很好補充。

圖1

圖1.HICO-Det測試集上的mAP與推斷時間。我們的PPDM-DLA的推理速度爲37fps(0.027秒),優於最新技術,這是第一種實時HOI檢測方法。我們的PPDM-Hourglass比現有技術以更快的速度實現了4.27%4.27\%mAP改善。

圖2

圖2.PPDM包含兩個平行分支。在點檢測分支中,檢測到的人/物體框以中心點,寬度和高度來表示。而且,交互點,即人和物體點的中心點也被定位。同時,在點匹配分支中,估計了從每個交互點到人/物體的兩個位移。源自同一交互點的人類點和物體點被視爲匹配對。

1 引言

  • 人與物體交互(HOI)檢測[30、11、10、9、12、16、22]最近受到越來越多的關注。給定圖像,HOI旨在檢測三元組<人,交互,對象>。與一般的視覺關係檢測[19、29、20、13、32]不同,三元組的對象固定爲人,而交互是動作。HOI檢測是邁向以人爲中心的場景的高級語義理解的重要一步。它具有許多應用程序,例如活動分析,人機交互和智能監控。
  • 常規的HOI檢測方法[2、22、12、16、26]主要包括兩個階段。第一階段是人-物體提案網絡的生成。預先訓練好的檢測器[8、23]用於定位人和物體。然後通過將過濾後的MM個人類框和NN個物體框成對地進行組合,生成M×NM\times N個人-物體的提案。第二階段是提案分類,它可以預測每個人-物體提案的交互。二階段方法的有效性和效率的侷限性主要是因爲它們兩個階段是相繼和分開的。提案生成階段完全基於對象檢測的置信度,每個人/物體的提案都是獨立生成的。沒有考慮在第二階段合併兩個提案以形成有意義的HOI三元組的可能性。因此,所生成的人-物體提案可能具有相當較低的質量。此外,在第二階段,所有的人-物體提案都需要進行線性掃描,而其中只有少數有效。額外的計算成本很大,因此,我們認爲需要非順序和高度耦合的框架。
  • 我們提出了一個並行HOI檢測框架,並將HOI檢測重新定義爲點檢測和匹配問題。如圖2所示,我們將一個框表示爲一箇中心點和相應的大小(寬度和高度)。此外,我們將交互點定義爲人和物體中心點的中點。爲了使每個交互點與人類點和對象點匹配,我們設計了從交互點到相應的人類和物體點的兩個位移。基於新穎的重構,我們設計了一種新穎的單級框架並行點檢測和匹配(PPDM),它將HOI檢測的複雜任務分解爲兩個更簡單的並行任務。PPDM由兩個並行分支組成。第一個分支是點檢測,它估計三個中心點(交互點、人和物體的點),相應的大小(寬度和高度)和兩個局部偏移(人和物體的點)。可以將交互點視爲爲人類和物體檢測提供上下文信息。換句話說,估計交互點會隱式增強對人和物體的檢測。第二個分支是點匹配,估計了從交互點到人和物體點的兩個位移。源自相同交互點的人和物體點被視爲匹配。在新穎的並行體系結構中,點檢測分支估計了交互點,從而爲人和物體的檢測隱式提供了上下文和規範化。抑制了不太可能形成有意義的HOI三元組的獨立檢測框,而更有可能形成的會被增強。它不同於人-物體提案生成階段的二階段方法,在該方法中,所有檢測到的人/物體框都無區別地形成了人-物體提案並餵給第二階段。此外,在點匹配分支中,僅在有限數量的已被篩選的候選交互點周圍進行匹配,這節省了大量計算成本。相反,在二階段方法的提案分類階段,所有的人-物體提案都需要分類。在公共基準HICO-Det[2]和我們新收集的HOI-A數據集上的實驗結果都表明,PPDM在準確性和速度方面都優於最新方法。
  • 現有的數據集,例如HICO-Det[22]和VCOCO[11],極大地促進了相關研究的發展,這些數據集非常通用。然而,在實際應用中,需要特別注意幾個有限的、頻繁的HOI類別。爲此,我們收集了一個新的具有以下功能的人-物體交互應用數據集(HOI-A):1)特別選擇了10種具有廣泛應用價值的HOI類別,例如抽菸和乘騎。2)類別內的巨大變化,包括每個類別的各種照明和不同的人體姿勢。HOI-A更受應用程序驅動,可以作爲現有數據集的很好補充。
  • 我們的貢獻概括如下:1)我們將HOI檢測任務重新設計爲點檢測和匹配問題,並提出了一種新穎的一階段PPDM解決方案。2)PPDM是第一種在HICO-DetHOI-A基準測試上實現實時性且優於最新技術的HOI檢測方法。3)收集了大規模的面向應用的HOI檢測數據集,以補充現有數據集。源代碼和數據集都將被髮布以促進相關研究。

2 相關工作

  • HOI檢測方法,現有的HOI檢測方法大致可分爲兩個階段:第一階段,使用物體檢測器[23]來定位人和物體;第二階段,將檢測到的人與物體配對,並將其特徵輸入到分類網絡中,以預測人與物體之間的相互作用。當前的工作更加註重探討如何改進第二階段。最近的工作旨在通過獲取上下文信息[7、27]或人類結構信息[26、6、5、33]來了解HOI。一些工作[22、28、33]將第二階段表述爲圖推理問題,並使用圖卷積網絡來預測HOI
  • 以上的方法都是基於提案的,因此其性能受到提案質量的限制。另外,現有方法必須在提案生成和特徵提取過程中花費大量計算成本。基於這些缺點,我們提出了一種新穎的單階段且無提議的框架來檢測HOI
  • HOI檢測數據集,主要有兩個常用的HOI檢測基準:VCOCO[11]和HICO-Det[2],以及以人爲中心的關係檢測數據集:HCVRD[36]。VCOCO是一個相對較小的數據集,它是MSCOCO[18]的子集,包括10346個圖像以及基於COCO註釋的26個動作。HICO-Det是一個大規模的通用HOI檢測數據集,包括47776張圖像,其中包含117個動詞和80個對象類別(與COCO相同)。HCVRD是從通用視覺關係檢測數據集Visual Genome[14]中收集的。它具有52855個圖像,927個謂詞類別和1824種物體。比較前兩個只關心人類行爲的HOI檢測數據集,HCVRD關注更一般的以人爲中心的關係,例如空間關係,擁有關係。
  • 先前的HOI檢測數據集主要集中於常見和一般動作。從實踐角度來看,我們建立了一個新的HOI-A數據集,其中包括約38K圖像,但僅以有限的典型種類的具有實際意義的動作進行了註釋。

圖3

圖3.擬議的PPDM框架概述。我們首先應用關鍵點熱力圖預測網絡,例如Hourglass-104DLA-34,以從圖像中提取外觀特徵。a)點檢測分支:基於提取的視覺特徵,我們利用三個卷積模塊來預測交互點,人體中心點和物體中心點的熱力圖。另外,要生成最終的框,我們對二維尺寸和局部偏移量進行迴歸。b)點匹配分支:此分支的第一步是迴歸交互點到人點和物體點的位移。根據預測的點和位移,第二步是將每個交互點與人點和物體點進行匹配,以生成一組三元組。

3 並行點檢測與匹配

3.1 綜述

  • HOI檢測的目標是估計HOI三元組<人,交互,物體>,它由主題框和類,人體動作類和物體框和類組成。我們將HOI檢測的複雜任務分解爲兩個更簡單的並行任務,可以將其組合起來以形成最終結果。提出的並行點檢測和匹配(PPDM)方法的框架如圖3所示。PPDM的第一個分支是點檢測。它估計人和物體的中心點,相應的大小(寬度和高度)以及局部偏移。中心點,大小和偏移量共同代表了一些候選框。此外還估計了被定義爲相應的<人體中心點,物體中心點>對的中點的交互點。PPDM的第二個分支是點匹配。估計交互點與相應的人和物體點之間的位移。源自同一交互點的人類點和物體點被視爲匹配對。

3.2 點檢測

  • 點檢測分支估計人體框、物體框和交互點。一個人體框表示爲它的中心點xh,yhR2(x^h,y^h)\in \mathbb{R}^2,相應的大小(寬度和高度)wh,hhR2(w^h,h^h)\in \mathbb{R}^2以及局部點偏移δchR2\delta c^h \in \mathbb{R}^2恢復由輸出步長引起的離散化誤差。對象框的表示方式與此類似。此外,我們將交互點xa,yaR2(x^a, y^a)\in \mathbb{R}^2定義爲成對的人體點和物體點的中點。考慮到交互點的接收域足夠大來包含人和物體,因此可以基於xa,ya(x^a,y^a)的特徵來估計人的動作aa。實際上,當數據集中有MM個人時,每個人體框都表示爲xih,yih,i[1,M](x^h_i,y^h_i),i\in[1,M]。爲了便於描述,我們在不產生混亂的情況下省略下標ii,類似的省略也適用於xo,yo(x^o,y^o)xa,ya(x^a,y^a)
  • 在圖3中,輸入圖像IRH×WI \in \mathbb{R}^{H \times W}被餵給特徵提取器以產生特徵特徵VRHd×WdV \in \mathbb{R}^{\frac{H}{d} \times \frac{W}{d}},其中的WWHH是輸入圖像的寬度和高度,dd是輸出步長。點的熱力圖是低解析度的,因此我們還計算了低解析度的中心點。給定一個真實的人體點xh,yh(x^h,y^h),那麼相應的低解析的點x~h,y~h=xhd,yhd(\tilde{x}^h, \tilde{y}^h)=(\left \lfloor \frac{x^h}{d} \right \rfloor,\left \lfloor \frac{y^h}{d} \right \rfloor)。低解析真實的物體點x~o,y~o(\tilde{x}^o,\tilde{y}^o)也能以相同的計算方法得出。基於低解析的人和物體點,可以定義真實的交互點爲x~a,y~a=x~h+x~o2,y~h+y~o2(\tilde{x}^a,\tilde{y}^a)=(\left \lfloor \frac{\tilde{x}^h+\tilde{x}^o}{2} \right \rfloor,\left \lfloor \frac{\tilde{y}^h+\tilde{y}^o}{2} \right \rfloor)
  • 點的位置損失,直接來檢測一個點是困難的,因此我們採用關鍵點估計方法[25]將點映射到具有高斯核的熱力圖中,從而將點檢測轉換爲熱力圖估計任務。三個真實的低解析度的點xh,yhxo,yo(x^h,y^h),(x^o,y^o)xa,ya(x^a,y^a)被映射到三個高斯熱力圖,包括人體點熱力圖C~h[0,1]Hd×Wd\tilde{C}^h\in [0,1]^{\frac{H}{d}\times \frac{W}{d}},物體點熱力圖C~o[0,1]T×Hd×Wd\tilde{C}^o\in [0,1]^{T\times \frac{H}{d}\times \frac{W}{d}}和交互點熱力圖C~a[0,1]K×Hd×Wd\tilde{C}^a\in [0,1]^{K\times \frac{H}{d}\times \frac{W}{d}},其中TT是物體的種類數量,KK是交互類別的數量。要注意的是,在C~o\tilde{C}^oC~a\tilde{C}^a中,只有與特定物體類別和人類行爲相對應的通道爲非零。通過在特徵圖VV上添加三個相應的卷積塊來生成三個熱力圖,每個卷積塊由具有ReLU3×33\times 3卷積層,隨後的1×11\times 1卷積層和Sigmoid組成。
  • 對這三個熱力圖,我們都應用了一個逐元素的焦點損失[17]。例如,給一個估計的交互點熱力圖C^a\hat{C}^a和相應的真實熱力圖C~a\tilde{C}^a,這個損失函數就是:
    La=1Nkxy{(1C^kxya)αlog(C^kxya)ifC~kxya=1(1C~kxya)β(C^kxya)αlog(1C^kxya)otherwise(1) L_a=-\frac{1}{N}\sum_{kxy} \begin{cases} (1-\hat{C}^a_{kxy})^\alpha \log(\hat{C}^a_{kxy}) & {\rm if} & \tilde{C}^a_{kxy}=1 \\ (1-\tilde{C}^a_{kxy})^\beta(\hat{C}^a_{kxy})^\alpha \log(1-\hat{C}^a_{kxy}) & {\rm otherwise} \end{cases}\tag{1}
    其中NN等於圖像中交互點(HOI 三元組)的數量,C^kxya\hat{C}^a_{kxy}是在預測的熱力圖中類別kk在位置(x,y)(x,y)處的值。按照[15、35、4]中的默認設置,將α\alpha設置爲2,將β\beta設置爲4。人體點和物體點的損失LpL_pLoL_o可以使用類似的方法來計算。
  • 尺寸和偏移損失,除了中心點,還需要框的大小和中心點的局部偏移量來形成人/物體框。將四個卷積塊添加到特徵圖VV,以分別估計2D尺寸和人與物體框的局部偏移。每個卷積塊包含一個帶ReLU3×33\times 3卷積層和一個1×11\times 1的卷積層。
  • 在訓練過程中,我們僅計算真實人體點(x~h,y~h)(\tilde{x}^h,\tilde{y}^h)和物體點(x~o,y~o)(\tilde{x}^o,\tilde{y}^o)的每個位置的L1損失,而忽略所有其他位置。我們以局部偏移的損失函數爲例,而尺寸迴歸損失LwhL_{wh}的定義與之相似。對於人體點(x~h,y~h)(\tilde{x}^h,\tilde{y}^h)的真實局部偏移量定義爲(δ~(x~h,y~h)x,δ~(x~h,y~h)y)=(xhdx~h,yhdy~h)(\tilde{\delta}^x_{(\tilde{x}^h,\tilde{y}^h)},\tilde{\delta}^y_{(\tilde{x}^h,\tilde{y}^h)})=(\frac{x^h}{d}-\tilde{x}^h,\frac{y^h}{d}-\tilde{y}^h)。因此,損失函數LoffL_{off}是人體框損失LoffhL^h_{off}和物體框損失LoffoL^o_{off}之和。
    Loff=1M+D(Loffh+Loffo)(2)L_{off}=\frac{1}{M+D}(L^h_{off}+L^o_{off}) \tag{2}
    Loffh=(x~h,y~h)S~h(δ~(x~h,y~h)xδ^(x~h,y~h)x+δ~(x~h,y~h)yδ^(x~h,y~h)y)(3)L^h_{off}=\sum_{(\tilde{x}^h,\tilde{y}^h)\in \tilde{S}^h}(\left| \tilde{\delta}^x_{(\tilde{x}^h,\tilde{y}^h)}- \hat{\delta}^x_{(\tilde{x}^h,\tilde{y}^h)}\right|+\left| \tilde{\delta}^y_{(\tilde{x}^h,\tilde{y}^h)}- \hat{\delta}^y_{(\tilde{x}^h,\tilde{y}^h)} \right|) \tag{3}
    其中S~h\tilde{S}^hS~o\tilde{S}^o表示訓練集中真實的人與物體點集。M=S~hM=|\tilde{S}^h|D=S~oD=|\tilde{S}^o|是人體點和物體點的數量。請注意,MM不一定要等於DD,例如一個人可以對應多個行爲和物體。LoffoL^o_{off}可以類似地用等式3來定義。

3.3 點匹配

  • 點匹配分支以交互點爲橋樑,將人體框和物體框配對。更具體地說,將交互點視爲錨點。兩個位移dah=(dxah,dyah)d^{ah}=(d^{ah}_x,d^{ah}_y)dao=(dxao,dyao)d^{ao}=(d^{ao}_x,d^{ao}_y),即估計交互點與人/物體之間的位移。粗略的人體點和物體點就分別是(xa,ya)(x^a,y^a)加上dahd^{ah}daod^{ao}
  • 我們提出的位移分支由兩個卷積模塊組成。每個模塊由一個帶ReLU3×33\times 3卷積層和一個1×11\times 1卷積層組成,對象和對象位移圖的大小均爲2×Hd×Wd2\times \frac{H}{d}\times \frac{W}{d}
  • 位移損失,爲了訓練位移分支,我們對每個交互點應用了L1L1損失。可以通過(d~(x~a,y~a)hx,d~(x~a,y~a)hy)=(x~ax~h,y~ay~h)(\tilde{d}^{hx}_{(\tilde{x}^a,\tilde{y}^a)},\tilde{d}^{hy}_{(\tilde{x}^a,\tilde{y}^a)})=(\tilde{x}^a-\tilde{x}^h,\tilde{y}^a-\tilde{y}^h)計算從位於(x~a,y~a)(\tilde{x}^a,\tilde{y}^a)的交互點到相應人體點的真實位移。在(x~a,y~a)(\tilde{x}^a,\tilde{y}^a)預測的位移是(d^(x~a,y~a)hx,d^(x~a,y~a)hy)(\hat{d}^{hx}_{(\tilde{x}^a,\tilde{y}^a)},\hat{d}^{hy}_{(\tilde{x}^a,\tilde{y}^a)})。位移損失定義爲:
    Lah=1N(x~a,y~a)S~a(d^(x~a,y~a)hxd~(x~a,y~a)hx+d^(x~a,y~a)hyd~(x~a,y~a)hy)(4)L_{ah}=\frac{1}{N}\sum_{(\tilde{x}^a,\tilde{y}^a)\in \tilde{S}^a}(|\hat{d}^{hx}_{(\tilde{x}^a,\tilde{y}^a)}-\tilde{d}^{hx}_{(\tilde{x}^a,\tilde{y}^a)}|+|\hat{d}^{hy}_{(\tilde{x}^a,\tilde{y}^a)}-\tilde{d}^{hy}_{(\tilde{x}^a,\tilde{y}^a)}|)\tag{4}
    其中S~a\tilde{S}^a表示訓練集中的真實交互點集。N=S~aN=|\tilde{S}^a|是交互點的數量。從交互點到物體點的位移損失函數LaoL_{ao}具有相同的形式。
  • 三元組匹配,考慮兩個方面來判斷人/物體是否可以與交互點匹配。人/物體需要:1)與由交互點加上位移生成的粗略的人/物體點接近;2)具有較高的置信度。在此基礎上,對於檢測到的交互點(x^a,y^a)(\hat{x}^a,\hat{y}^a),我們通過等式5對檢測到的人體點集S^h\hat{S}^h中的點進行排序,並選擇最佳點。
    (x^opth,y^opth)=arg min(x^h,y^h)S^h1C(x^h,y^h)h((x^a,y^a)(d^(x^a,y^a)hx,d^(x^a,y^a)hy)(x^h,y^h))(5)(\hat{x}^h_{opt},\hat{y}^h_{opt})=\argmin_{(\hat{x}^h,\hat{y}^h)\in \hat{S}^h} \frac{1}{C^h_{(\hat{x}^h,\hat{y}^h)}}(|(\hat{x}^a,\hat{y}^a)-(\hat{d}^{hx}_{(\hat{x}^a,\hat{y}^a)},\hat{d}^{hy}_{(\hat{x}^a,\hat{y}^a)})-(\hat{x}^h,\hat{y}^h)|)\tag{5}
    其中C(x^h,y^h)hC^h_{(\hat{x}^h,\hat{y}^h)}表示人體點(x^h,y^h)(\hat{x}^h, \hat{y}^h)的置信度。最佳的物體點(x^opto,y^opto)(\hat{x}^o_{opt},\hat{y}^o_{opt})也可以類似的方法來選擇。

3.4 損失與推斷

  • 最終損失可以通過對上述損失進行加權求和而得出:
    L=La+Lh+Lo+λ(Lah+Lao+Lwh)+Loff(6)L=L_a+L_h+L_o+\lambda (L_{ah}+L_{ao}+L_{wh})+L_{off}\tag{6}
    其中我們參考[15、35]將λ\lambda設置爲0.1。La,LhL_a,L_hLoL_o是點的位置損失,LahL_{ah}LohL_{oh}是位移損失,而LwhL_{wh}LoffL_{off}是尺寸和偏移損失。
  • 在推論過程中,我們首先對預測的人,物體和交互點熱力圖進行步長爲1的3×33\times 3最大池化操作,其作用與NMS類似。其次,我們通過所有類別中相應的置信度C^h,C^o\hat{C}^h,\hat{C}^oC^a\hat{C}^a選取前KK個人體點S^h\hat{S}^h,物體中心點S^o\hat{S}^o和交互點S^a\hat{S}^a。然後通過等式5對每一個交互點找到人體點和物體點。對每一個匹配的人體點(x^opth,y^opth)(\hat{x}^h_{opt},\hat{y}^h_{opt}),我們得到最終的框如下:
    (x^refhw^(x^opth,y^opth)2,y^refhh^(x^opth,y^opth)2,x^refh+w^(x^opth,y^opth)2,y^refh+h^(x^opth,y^opth)2)(7)(\hat{x}^h_{ref}-\frac{\hat{w}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2},\hat{y}^h_{ref}-\frac{\hat{h}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2},\hat{x}^h_{ref}+\frac{\hat{w}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2},\hat{y}^h_{ref}+\frac{\hat{h}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2}) \tag{7}
    其中x^refh=x^opth+δ^(x^opth,y^opth)x\hat{x}^h_{ref}=\hat{x}^h_{opt}+\hat{\delta}^x_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}y^refh=y^opth+δ^(x^opth,y^opth)y\hat{y}^h_{ref}=\hat{y}^h_{opt}+\hat{\delta}^y_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}是精確的人體中心點的位置。(w^(x^opth,y^opth)2,h^(x^opth,y^opth)2)(\frac{\hat{w}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2},\frac{\hat{h}_{(\hat{x}^h_{opt},\hat{y}^h_{opt})}}{2})是相應位置框的大小。最終的HOI檢測結果是一個三元組,三元組的置信度爲C^x^refhy^refhpC^x^refoy^refooC^x^refay^refaa\hat{C}^p_{\hat{x}^h_{ref}\hat{y}^h_{ref}}\hat{C}^o_{\hat{x}^o_{ref}\hat{y}^o_{ref}}\hat{C}^a_{\hat{x}^a_{ref}\hat{y}^a_{ref}}

表1

表1.HOI-A數據集中對應物體動詞的列表和出現的編號。

4 HOI-A數據集

  • 現有的數據集例如HICO-Det[22]和VCOCO[11]極大地促進了相關研究的發展。但是,在實際應用中,需要特別注意的是頻繁出現的HOI類別,在以前的數據集中並未被強調。然後,我們引入一個新的數據集,稱爲應用的人物交互(HOI-A)
  • 如表1所示,我們選擇實際應用中驅動的動詞類別。HOI-A數據集中的每種動詞都有其相應的應用場景,例如,可以在危險的動作檢測中應用的“通話”。例如,如果人在開車時通話,可以考慮爲危險的駕駛行爲。

圖5

圖4.HOI-A數據集中的示例圖片,我們以<人,抽菸,香菸>爲例,(a)-(d)顯示了自然情況下<人,抽菸,香菸>這個類別內的巨大差異,(e)-(f)展示了兩種負樣本。

4.1 HOI-A結構

  • 我們描述了用於構建HOI-A數據集的圖像收集和註釋過程。第一步是收集候選圖像,該圖像可以分爲兩部分,即正圖像和負圖像。
  • 正圖像收集,我們以兩種方式收集正圖像,即相機拍攝和爬取。相機拍攝是擴大數據內部類差異的一種重要方法。我們僱傭了50名錶演者,要求他們在不同的場景和光照下以各種姿勢執行所有預定義的動作,並分別用RGB相機和IR相機拍攝他們的照片。對於從互聯網爬取的數據,我們基於HOI三元組<人,行爲名稱,物體名稱>,行爲對<行爲名稱, 物體名稱>和動作名稱生成一系列關鍵字,並從互聯網檢索圖像。
  • 負圖像收集,預定義的<人,交互,物體>的負樣本有兩種。1)有關物體出現在圖像中,但是有關的動作沒發生。例如在圖4(f)中,儘管香菸在圖像中出現,但是人並未吸菸。因此,這個圖像是一個負樣本。2)發生了與所關注動作類似的其他動作,但是所關注的物體卻沒有出現。例如,在圖4(e)中,該男子看上去在吸菸,但是仔細觀察圖像會發現圖像中沒有香菸。我們以攻擊的方式來收集這種負樣本。我們首先基於帶註釋的正樣本圖像訓練一個多標籤動作分類器。分類器將圖像作爲輸入,並輸出動作分類的概率。然後我們讓演員不用交互的物體任意表演來攻擊分類器。如果攻擊成功,我們會將這張圖片記錄爲難例負樣本。
  • 註解,註解的過程包含兩個步驟:框註釋和交互註釋。首先,在預定義的類別中的所有物體都用一個框和相應的類別進行註釋。其次,我們將圖像中的框以及ID可視化並註釋一個人是否具有與物體的已被定義的交互。註釋者應記錄<人的ID,交互ID, 物體ID>,爲了獲得更準確的註釋,每個圖像都由3個註釋者來註釋。如果至少有兩個註釋者有同一個註釋,則該圖像的註釋被認爲合格。

4.2 數據集的屬性

  • 規模,我們的HOI-A數據集包含38668個帶註釋的圖像,11種物體和10個動作類別。在詳細信息中,它包含43820個人類實例,60438個物體實例以及96160個交互實例。每個人平均進行2.2次互動。表1列出了每個動詞至少出現360次的實例數。60%60\%的動詞已出現超過6500次。據我們所知,就每個交互類別的圖像而言,這已經是最大的HOI數據集。
  • 類別內部的變化,爲了擴大數據的類內變化,我們的HOI-A數據集中的每個動詞都將通過三個一般場景進行拍攝,包括室內,室外和車內,三種照明條件包括黑暗,自然和強烈,各種人的姿勢和不同的角度。此外,我們使用兩種相機拍攝圖像:RGBIR

5 實驗

5.1 實驗設置

  • 數據集,爲了驗證我們PPDM的有效性,我們不僅對我們的HOI-A數據集進行了實驗,而且還在常規HOI檢測數據集HICO-Det[2]上進行了實驗。HICO-Det是用於常見HOI檢測的大規模數據集。它包含了47776個圖像(用於訓練的38118個圖像和用於測試的9658個圖像),並用117個動詞(包括“無交互”)和80個物體類別進行註釋,117個動詞和80個物體組成600種HOI三元組,其中出現次數小於10的138種HOI被視爲稀有集,其餘462種HOI形成非稀有集。
  • 度量標準,按照HOI檢測任務的標準設置,我們使用平均精度均值(mAP)作爲度量標準。如果預測的三元組被認爲是真實的正樣本,則需要匹配某個真實的三元組。具體來說,它們具有相同的HOI類,並且其人體框和物體框的IOU的值大於0.5。在兩個數據集上計算AP時會有細微的差異。我們在HICO-Det中按每個HOI類計算AP,並在HOI-A數據集中按動詞類計算AP
  • 實施細節,我們使用兩個常見的熱力圖預測網絡作爲我們的特徵提取器:Hourglass-104[21、15]和DLA-34[31、35]。Hourglass-104是通常用於關鍵點檢測和物體檢測的通用熱力圖預測網絡。在PPDM中,我們使用[15]中提出的修改版本Hourglass-104DLA-34是一個輕量級的骨幹網絡,我們採用[35]中提出的改進版本。網絡的感受野需要足夠大以覆蓋人和物體。Hourglass-104具有足夠大的感受野,而DLA-34的感受野由於其相對較淺的結構而無法覆蓋包括人和物體在內的區域。因此,對於基於DLA的模型,我們將最後三個層的特徵連接起來,並應用基於圖的全局推理模塊[3]來擴大交互點和位移預測的感受野。在全局推理模塊中,我們將節點和簡化特徵的的通道分別設置爲48和96。對於Hourglass-104,我們對所有後續模塊僅使用最後一層的特徵值。我們使用在COCO[18]上預先訓練的權重來初始化特徵提取器。我們的實驗都是在Titan Xp GPUCUDA 9.0上進行的
  • 在訓練和推理期間,輸入分辨率爲512×512512\times 512,輸出爲128×128128\times 128PPDM在8個GPU上使用Adam算法來訓練。我們設置了以下的超參數[35],它對我們的框架是健壯的。我們使用大小爲128的110個小批次訓練了基於DLA-34的模型,在第90個批次時學習率從5e-4降低到5e-5。對於基於Hourglass-104的模型,我們使用大小爲32的110個批次來訓練它,在第90個批次時,學習率從3.2e-4降低了10倍。我們遵循了[15、35]的方法,應用數據增強,即隨機尺度和隨機移位來訓練模型,並在推理過程中沒有增強。我們設置的預測數KK是100。

表2

表2.在HICO-Det測試集上的性能比較。其中的“A”,“P”,“S”,“L”分別代表外觀特徵、人體姿勢特徵、空間特徵和語言特徵。

表3

表3.在HOI-A測試集上的性能比較。

圖5

圖5.在HICO-Det上與iCAN的比較結果可視化。第一行是iCAN的預測結果,第二行是PPDM的結果。紫色的註解是人,紅色的是物體。如果一個人和一個物體有交互,他們會被綠色的線連接起來。我們以每張圖片的前3個置信度展示結果:1-藍色,2-黃色,3-粉色。爲“no”的註解是沒有交互。

5.2 與最新技術的比較

  • 我們將PPDM與兩個數據集上的最新方法進行了比較。定量結果見表2和表3,定性結果見圖5。比較的方法主要使用預先訓練的Faster R-CNN[23]生成一組人-物體對,然後將其餵給成對分類網絡。如表2所示,爲了更準確地對HOI分類,許多方法都使用了其他人體姿勢特徵或語言特徵。
5.2.1 定量分析
  • HICO-Det,參見表2。我們的PPDM-DLAPPDM-Hourglass均優於以前的所有最新方法。具體而言,與之前最佳方法PMFNet[26]相比,我們的PPDM-Hourglass可以顯著提高性能(24.5%24.5\%)。我們可以看到,以前的mAP大於17%17\%的方法都使用人體姿勢作爲附加特徵,而我們的PPDM僅使用外觀特徵。在稀少子集上,PPDM的性能略低於PMFNet。但是,不使用人體姿勢信息的PMFNet基本模型在稀少集上只能達到11.42%11.42\%。稀少集的性能增益可能主要來自於附加的人體姿勢特徵。人的結構信息在理解人的行爲方面起着重要作用,因此我們認爲如何在我們的框架中利用人的背景是未來的重要工作。
  • HOI-AHOI-A數據集中的比較方法由兩部分組成。第一部分,我們從ICCV 2019 PIC挑戰HOI檢測[1]的排行榜中選擇前三的方法,這些方法在我們HOI-A數據集上測試。與使用強大檢測器的第一名方法C-HOI[34]相比,我們的方法仍然要優於它。第二部分,我們選擇兩個開源的單前最好的方法iCAN[7]和TIN[16]作爲我們HOI-A數據集的基準。我們首先使用FPNResNet-50Faster R-CNN進行預訓練,然後按照它們原始的設置來訓練HOI分類器。結果表明,我們的PPDM大大優於兩種方法。此外,對於我們選擇的具有實際意義的交互類型,我們的PPDM可以在實際中達到高性能。
5.2.2 定性分析
  • 我們使用基於PPDM-DLAHICO-Det數據集上的前3個置信度來可視化HOI預測結果,並將我們的結果與典型的二階段方法iCAN[7]進行比較。如圖5所示,我們選擇了二階段方法的具有代表性的錯誤案例。我們可以看到,iCAN傾向於將重點放在具有較高的檢測度但沒有交互的人/物體上。在圖5(b)和圖5(c)中,由於正負樣本的巨大失衡,iCAN很容易爲“無交互”類型產生高置信度。在圖5(d)中,坐在飛機上的人很小,無法被檢測到。但是,在這些情況下,我們的PPDM可以高度準確地預測HOI三元組。因爲PPDM不依賴於提案。此外,PPDM集中在對HOI三元組的理解上。
5.2.3 效率分析
  • 我們將單個Titan Xp GPU上的推理速度與已發佈代碼或報告速度的方法進行了比較。如表2所示,具有DLAHourglassPPDM都比其他方法要快得多。PPDM-DLA是唯一的實時方法,只需要27ms的推理時間。具體來說,二階段HOI檢測方法的推理時間可以分爲提案生成時間和HOI分類器時間。此外,基於姿勢的方法需要花費額外的時間來估計人體關鍵點。可以看出,PPDM-DLA的速度比所比較的方法任一階段都快。

表4

表4.在HICO-Det測試集上的組成分析。

圖6

圖6.可視化交互點熱力圖和位移。紅色和紫色的線表示交互點(綠色)到物體和人的位移。

5.3 組成分析

  • 我們從定量和定性的角度分析了PPDM中提出的組件。
  • 特徵提取器,我們分析了DLA主幹網絡中其他模塊的有效性,即特徵融合和全局推理。表4中的第一行代表具有DLA的基本框架,在該框架中,我們僅根據最後一層的特徵預測交互。它表明基本模型仍然可以勝過所有現有方法。它證明了我們設計框架的有效性。第二行和第三行分別顯示了具有特徵融合和全局推理模塊的基本模型結果,從表4中可以看到,性能變化不大。如果我們同時將這兩個設置添加到基本框架中,則性能將提高0.35%0.35\%mAP。我們得出的結論是,較大的感受野和全局範圍有助於進行交互預測。
  • 點檢測,爲了驗證兩個中心點的中點是否是預測交互點的最佳選擇,我們基於在人和物體框的聯合中心處的交互點進行試驗,這是另一個交互的合適預測位置。請參閱表4的第4行。與PPDM-DLA相比,mAP下降了1.64%1.64\%。通常,兩個物體與同一個人互動,並且可能位於人的框中,在這種情況下,它們的框的中心點會重疊。此外,我們定性地分析了交互點。如圖6所示,儘管人類遠離物體或者在物體內,但預測的交互點幾乎準確的位於人/物體的中心點。
  • 點匹配,爲了進一步瞭解位移,我們將圖6中的位移可視化。我們可以看到交互點加上相應的位移非常接近人/物體框的中心,即使很難這裏的人/物體很難被檢測到。

6 結論

  • 在本文中,我們提出了一種新穎的單階段框架和一個用於HOI檢測的新數據集。我們提出的方法可以以相當快的速度勝過現有的方法。它打破了傳統的二階段方法的侷限,並通過並行框架直接預測HOI。我們提出的HOI-A數據集更傾向於在實際應用中進行HOI檢測。對於未來的工作,我們計劃探索如何在我們的框架中利用人體信息。此外,我們計劃豐富HOI-A數據集的行爲類別。

參考文獻

  • [1] Pic leaderboard. http://www.picdataset.com/challenge/leaderboard/hoi2019.
  • [2] Yu-Wei Chao, Yunfan Liu, Xieyang Liu, Huayi Zeng, and Jia Deng. Learning to detect human-object interactions. In WACV, 2018.
  • [3] Yunpeng Chen, Marcus Rohrbach, Zhicheng Yan, Yan Shuicheng, Jiashi Feng, and Yannis Kalantidis. Graph-based global reasoning networks. In CVPR, 2019.
  • [4] Zhiwei Dong, Guoxuan Li, Yue Liao, Fei Wang, Pengju Ren, and Chen Qian. Centripetalnet: Pursuing high-quality keypoint pairs for object detection. In CVPR, 2020.
  • [5] Hao-Shu Fang, Jinkun Cao, Yu-Wing Tai, and Cewu Lu. Pairwise body-part attention for recognizing human-object interactions. In ECCV, 2018.
  • [6] Wei Feng, Wentao Liu, Tong Li, Jing Peng, Chen Qian, and Xiaolin Hu. Turbo learning framework for human-object interactions recognition and human pose estimation. 2019.
  • [7] Chen Gao, Yuliang Zou, and Jia-Bin Huang. ican: Instancecentric attention network for human-object interaction detection. In BMVC, 2018.
  • [8] Ross Girshick. Fast r-cnn. In CVPR, 2015.
  • [9] Georgia Gkioxari, Ross Girshick, Piotr Dollar, and Kaiming He. Detecting and recognizing human-object interactions. In CVPR, 2018.
  • [10] Abhinav Gupta, Aniruddha Kembhavi, and Larry S Davis. Observing human-object interactions: Using spatial and functional compatibility for recognition. TPAMI, 2009.
  • [11] Saurabh Gupta and Jitendra Malik. Visual semantic role labeling. arXiv preprint arXiv:1505.04474, 2015.
  • [12] Tanmay Gupta, Alexander Schwing, and Derek Hoiem. Nofrills human-object interaction detection: Factorization, appearance and layout encodings, and training techniques. In ICCV, 2019.
  • [13] Roei Herzig, Moshiko Raboh, Gal Chechik, Jonathan Berant, and Amir Globerson. Mapping images to scene graphs with permutation-invariant structured prediction. In NIPS, 2018.
  • [14] Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A Shamma, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 123(1):32–73, 2017.
  • [15] Hei Law and Jia Deng. Cornernet: Detecting objects as paired keypoints. In ECCV, 2018.
  • [16] Yong-Lu Li, Siyuan Zhou, Xijie Huang, Liang Xu, Ze Ma, Hao-Shu Fang, Yan-Feng Wang, and Cewu Lu. Transferable interactiveness prior for human-object interaction detection. In CVPR, 2019.
  • [17] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollar. Focal loss for dense object detection. In CVPR, 2017.
  • [18] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014.
  • [19] Cewu Lu, Ranjay Krishna, Michael Bernstein, and Li FeiFei. Visual relationship detection with language priors. In ECCV, 2016.
  • [20] Alejandro Newell and Jia Deng. Pixels to graphs by associative embedding. In NIPS, 2017.
  • [21] Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hourglass networks for human pose estimation. In ECCV, 2016.
  • [22] Siyuan Qi, Wenguan Wang, Baoxiong Jia, Jianbing Shen, and Song-Chun Zhu. Learning human-object interactions by graph parsing neural networks. In ECCV, 2018.
  • [23] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In NIPS, 2015.
  • [24] Liyue Shen, Serena Yeung, Judy Hoffman, Greg Mori, and Li Fei-Fei. Scaling human-object interaction recognition through zero-shot learning. In WACV, 2018.
  • [25] Jonathan J Tompson, Arjun Jain, Yann LeCun, and Christoph Bregler. Joint training of a convolutional network and a graphical model for human pose estimation.
  • [26] Bo Wan, Desen Zhou, Yongfei Liu, Rongjie Li, and Xuming He. Pose-aware multi-level feature network for human object interaction detection. In ICCV, 2019.
  • [27] Tiancai Wang, Rao Muhammad Anwer, Muhammad Haris Khan, Fahad Shahbaz Khan, Yanwei Pang, Ling Shao, and Jorma Laaksonen. Deep contextual attention for human-object interaction detection. In ICCV, 2019.
  • [28] Bingjie Xu, Yongkang Wong, Junnan Li, Qi Zhao, and Mohan S. Kankanhalli. Learning to detect human-object interactions with knowledge. In CVPR, 2019.
  • [29] Danfei Xu, Yuke Zhu, Christopher B Choy, and Li Fei-Fei. Scene graph generation by iterative message passing. In CVPR, 2017.
  • [30] Bangpeng Yao and Li Fei-Fei. Recognizing human-object interactions in still images by modeling the mutual context of objects and human poses. TPAMI, 2012.
  • [31] Fisher Yu, Dequan Wang, Evan Shelhamer, and Trevor Darrell. Deep layer aggregation. In CVPR, 2018.
  • [32] Ji Zhang, Kevin J Shih, Ahmed Elgammal, Andrew Tao, and Bryan Catanzaro. Graphical contrastive losses for scene graph parsing. In CVPR, 2019.
  • [33] Penghao Zhou and Mingmin Chi. Relation parsing neural network for human-object interaction detection. In ICCV, 2019.
  • [34] Tianfei Zhou, Wenguan Wang, Siyuan Qi, Haibin Ling, and Jianbing Shen. Cascaded human-object interaction recognition. In CVPR, 2020.
  • [35] Xingyi Zhou, Dequan Wang, and Philipp Krahenbuhl. Objects as points. arXiv preprint arXiv:1904.07850, 2019.
  • [36] Bohan Zhuang, Qi Wu, Chunhua Shen, Ian Reid, and Anton van den Hengel. Care about you: towards large-scale human-centric visual relationship detection. arXiv preprint arXiv:1705.09892, 2017.

  1. https://github.com/YueLiao/PPDM ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章