論文筆記之ICAN

利用注意力模塊,爲每一個檢測到的人或物體生成注意力圖以突出顯示與任務相關的區域
被接收
論文地址: https://arxiv.org/pdf/1808.10437.pdf

1. 摘要

本文提出了端到端可訓練的以實例爲中心的注意力模塊用於學習使用人或外觀突出信息區域的物體實例。我們的直覺是一個實例的外觀(無論是人還是物)提供關於圖像中我們應該注意的位置的提示。例如,到更好地確定一個人是否攜帶物體,應該將其注意力集中在物體上人的手周圍的區域。另一方面,給一個圖像中的自行車,參加對附近人的姿勢有助於消除所涉及的潛在交互的歧義與對象實例(例如,騎或騎自行車)。建議以實例爲中心的**注意力網絡(iCAN)**爲每個檢測到的人或對象動態生成注意力圖實例突出顯示與任務相關的區域。我們驗證了我們網絡的功效關於HOI檢測的兩個大型公共基準設計:COCO中的動詞(V-COCO)[16]和人類與共同對象交互(HICO-DET)[4]數據集。我們的結果表明擬議的iCAN與周圍的最新技術相比具有優勢相對於現有的,V-COCO相對改善10%,HICO-DET相對改善49%表現最佳的方法。
貢獻:
● 引入了一個以實例爲中心的注意力模塊,它允許網絡動態突出信息區域以改進 HOI 檢測。
● 在兩個大型 HOI 基準數據集上取得了新的當前最佳性能。
● 進行了詳細的對比實驗和誤差分析,以確定各個組成部分的相對貢獻,並量化不同類型的錯誤。
● 發佈了源代碼和預訓練模型,以促進將來的研究。

2. 相關工作

Attention:
已經進行了廣泛的努力以將注意力集中在動作識別和人物交互任務中。這些方法通常使用手工設計的注意區域來提取上下文特徵。最近,已經提出了端到端可訓練的基於注意力的方法來改進動作識別或圖像分類的性能。但是,這些方法是爲圖像級分類任務而設計的。

Human-object interactions:
檢測HOI可以更深入地瞭解場景中的情況。 Gupta和Malik 首先解決了HOI檢測問題 - 檢測做動作的人以及和他們交互的物體實例。

將場景中的目標與各種語義角色相關聯可以更精細地理解當前的活動狀態。最近,Gkioxari等通過基於檢測到的人的外觀,在目標物體位置上引入特定於動作的密度圖來擴展[16]中的方法。此外,通過用ResNet-50和特徵金字塔網絡取代特徵backbone,也顯示出顯着改善的結果。除了使用物體實例外觀,Chao等人還用CNN編碼人與物體之間的相對空間關係。

我們的工作建立在HOI檢測的這些最新進展的基礎上,但具有關鍵的區別。現有工作基於個體線索(人類外觀,物體外觀或人 - 物體對之間的空間關係)識別交互。我們的主要觀察是,這種預測不可避免地受到缺乏背景信息的影響。本文所提出的以實例爲中心的注意模塊提取與局部區域(例如,人/物體框)的外觀特徵互補的上下文特徵,以促進HOI檢測。

在這裏插入圖片描述
上圖爲上下文特徵示例。除了使用人和物體的邊界框之外,本文還從圖像捕獲語境線索的不同方式。

3. 本文方法—實例中心注意力網絡

3.1 網絡結構

(1)總體結構
在這裏插入圖片描述
所提出的模型包括以下三個主要分支:
● 基於人類外觀檢測交互的人的分支;
● 基於物體外觀預測交互的物體的分支;
● 用於編碼人類和物體邊界框之間的空間佈局的成對分支。
給定由Faster R-CNN檢測到的目標實例,使用所有人 - 物體對生成HOI假設。然後融合來自各個分支的動作分數以產生最終預測,如上圖右側所示。

(2)ICAN模型
ICAN模塊
給定圖像的卷積特徵(以灰色顯示)和人/物體邊界框(以紅色顯示),iCAN模塊也提取實例xh inst(人類)或xo inst(物體)的外觀特徵, 作爲以實例爲中心的注意力圖的特徵。 爲了計算注意力圖,測量了嵌入空間中的相似性以及512個通道的瓶頸。 具體來說,使用1×1卷積和實例外觀特徵x h inst將圖像特徵嵌入到全連接層中。 這裏,res5表示第五殘差塊,GAP表示全局平均合併層,FC表示全連接層。

我們以與現有方法類似的方式預測HOI分數。對於每個人 - 物體邊界框對,我們預測每個動作的得分在這裏插入圖片描述,對於每個動作在這裏插入圖片描述,其中A表示可能的動作的總數。
得分取決於
(1)單個目標在這裏插入圖片描述檢測的置信度
(2)基於人的外觀在這裏插入圖片描述和物體的外觀在這裏插入圖片描述的交互預測
(3)基於人與物體之間的空間關係的分數預測

具體來說,人類對象邊界框對的HOI得分 具有以下形式:

在這裏插入圖片描述
對於一些不涉及任何物體的動作類(例如,walk,smile),我們使用的動作分數僅來自檢測人的分支。 對於這些行爲的最終得分是在這裏插入圖片描述

Training:
由於一個人可以同時對一個或多個目標物體執行不同的動作,例如,一個人可以同時“擊中”網球並“抓住”網球拍,因此HOI檢測是多標籤分類問題,其中每個交互階級是獨立的,不是相互排斥的。 作者爲每個動作類別應用二進制sigmoid分類器,然後最小化動作分數在這裏插入圖片描述與每個動作類別的ground truth動作標籤之間的交叉熵損失。

3.2 實例中心注意力模塊

以實例爲中心的注意模塊,主要用於從圖像中提取上下文特徵。

  • 首先使用標準過程提取實例級外觀特徵,例如,應用ROI池,通過殘差塊,然後是全局平均池化。
  • 接下來的目標是動態生成以感興趣的目標實例爲條件的注意力映射。爲此,作者將實例級外觀特徵和卷積特徵映射嵌入到512維空間中,並使用矢量點積測量該嵌入空間中的相似性。
  • 然後通過應用softmax獲得以實例爲中心的注意力圖。注意圖突出顯示圖像中的相關區域,其可以有助於識別與給定人/對象實例相關聯的HOI。
  • 使用注意力圖,我們可以通過計算卷積特徵的加權平均值來提取上下文特徵 。 iCAN模塊的最終輸出是實例級外觀特徵和基於注意力的上下文特徵的融合(拼接)。

本文的iCAN模塊與現有方法相比具有多種優勢。首先,與基於姿勢,整個圖像或次要區域的手工設計的上下文特徵不同,我們的注意力圖被自動學習並與其餘網絡共同訓練以改善性能。其次,與爲圖像級別分類設計的注意力模塊相比,我們以實例爲中心的注意力圖提供了更大的靈活性,因爲它允許根據不同的對象實例參與圖像中的不同區域。

3.3 多流網絡

如圖3所示,網絡使用三個分支來計算基於人類外觀,對象外觀及其空間關係的動作分數。

  • **Human/object stream:**對於人類和物體流,提取了1)一個人/物體的實例級外觀特徵和 2)上下文特徵基於注意圖,遵循3.2節和圖4中概述的步驟。使用兩個特徵向量,然後連接它們並將其傳遞通過兩個全連接層以產生動作得分 。
  • **Pairwise stream:**雖然人類和物體外觀特徵包含用於識別交互的強烈提示,但僅使用外觀特徵經常導致合理但不正確的預測。爲了對人與物之間的空間關係進行編碼,我們採用雙通道二值圖像表示來表徵交互模式。具體來說,將這兩個框的並集作爲參考框,並構建一個二進制圖像,其中包含兩個通道。第一個通道在人類邊界框中的值爲1,在其他地方的值爲0;第二個通道在物體邊界框中的值爲1,在其他位置的值爲0。然後,使用CNN從這個雙通道二進制圖像中提取空間特徵。
    但是,作者發現由於粗糙的空間信息(僅兩個邊界框),該特徵本身不能產生準確的動作預測。爲了解決這個問題,作者將空間特徵與人類外觀特徵連接起來。理由是,人的外觀可以極大地幫助消除具有相似空間佈局的不同動作,例如騎行與騎自行車。

3.4 高效推理

本文使用成對求和分數方法作爲後期融合的方法(因爲動作分數首先從人/物流中獨立預測,然後再彙總)。
另外也實現了早期融合的iCAN變體。 具體來說,首先連接人類iCAN,物體iCAN和成對流的所有特徵,並使用兩個全連接層來預測動作得分。
與晚期融合不同,早期融合方法需要評估來自所有人 - 物對的分數,因此具有較慢的推理速度,並且對於具有許多目標的場景不能很好地縮放。

4. 實驗結果

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章