Relation Network for Person Re-identification

Paper：https://arxiv.org/abs/1911.09318v2

Code：https://github.com/cvlab-yonsei/projects/tree/master/RRID/code

摘要：Re-ID旨在從一組相機網陣中捕獲的圖像中檢索相關人員圖像的任務。最近的Re-ID方法表明，利用描述身體部位的局部特徵，加上行人圖像本身的全局特徵，即使在缺少身體部位的情況下，也能提供健壯的特徵表示。然而，直接使用個體的局部特徵，而不考慮身體各部分之間的關係，混淆了在相應部分具有相似屬性的不同ID。爲了解決此問題，我們爲行人Re-ID提出了新的關係網略，它考慮了身體各個部分與其他部分之間的關係。我們的模型可使一個單獨的部件級特徵也包含身體其他部分的信息，從而使它更具有識別力。我們還介紹了一種全局對比池化方法（GCP）來獲得行人圖像的全局特徵。我們提出通過GCP使用對比特徵補充傳統最大和平均池化方法。在三個公開數據集上展示了我們模型的有效性。

知識點解析：

a）：概述：得到一張行人圖像的特徵圖（C*H*W）。將得到的特徵圖水平分割成6網格。然後對每個特徵圖應用GMP，得到size爲1*1*C的局部層次的特徵圖。我們將特徵圖送進兩個模塊中，以提取新的局部和全局行人表示：One vs rest模塊和GCP。第一個模塊通過考慮身體各部分與其餘部分之間的關係，使得每個局部層次的特徵更具有辨別力，並輸出1*1*c的局部關係特徵。第二個模塊提供一個1*1*c的全局對比特徵，表示行人圖像本身。我們沿着通道維將全局對比和局部關係特徵連接起來，並使用1*1*7c的特徵作爲Re-ID的行人表示。我們使用交叉熵和三元損失來訓練我們的模型，其中三元組爲anchor、positive和negative的行人圖像。在測試時，我們提取行人圖像的特徵，並計算他們之間的歐式距離來確定行人的ID。

b）：Relation networks for part-based reID：1）：局部層次特徵：我們利用在ImageNet預訓練的ResNet-50作爲主幹網絡，從輸入的圖像中提取初始特徵圖。具體來說，根據PCB的工作，我們將ResNet-50的GAP和全連接去掉，並將最後一個卷積層的stride設置爲1。類似於其他基於局部特徵的Re-ID方法，我們將初始特徵圖分成C*H/6*W的水平網格，對每個網格應用GMP，得到1*1*C的局部水平特徵。2）：One VS rest關係模塊：從水平網格中提取局部層次的特徵，可以隱式地利用身體的各個部分來表示不同的人。現有的Re-ID方法將這些局部特徵獨立地用於行人檢索。考慮到行人圖像之間的粗糙的幾何對應，他們以特定的順序將所有局部特徵鏈接起來。雖然此結構化的行人特徵可以對幾何變化和遮擋，但是他們沒有考慮身體部分之間的關係。也就是說，各個部分是孤立的，不與其他部分通信，這就分散了計算不同ID之間在相應部分中具有相似屬性的相似度。爲了緩解這個問題，我們提出利用身體各部分之間的關係來表示行人。具體來說，我們引入一個新的關係網絡（圖2），它利用身體部分的one VS rest關係，使得每個局部層次的特徵都可以包含相應部分本身和其他身體部分的信息。具體來說，我們用 $p_{i}$ (i=1...6)表示每個局部層次的特徵，大小爲1*1*C。我們對所有局部層次的特徵應用同一個平均池化，除了特徵 $p_{i}$ ，其他部分的信息按如下方式聚合： $r_{i} = \tfrac{1}{5}\sum _{j\neq i}p_{j}$ 。然後我們分別在 $p_{i}$ 和 $r_{i}$ 之後增加一個1*1的卷積層，分別得到大小爲1*1*c的特徵圖 $\overline{p_{i}}$ 和 $\overline{r_{i}}$ 。關係網絡通過連接 $\overline{p_{i}}$ 和 $\overline{r_{i}}$ ，爲每一個 $p_{i}$ 輸出一個局部關係特徵 $q_{i}$ 。我們在圖2中描述了一個提取局部關係特徵 $q_{1}$ 的例子。在這裏，我們假設 $q_{i}$ 包含它自身的信息 $\overline{p_{i}}$ 和身體其他部分的信息。因此，我們使用一個跳轉連接來傳輸 $\overline{p_{i}}$ 和 $\overline{r_{i}}$ 到 $q_{i}$ 的相關信息： $q_{i} = \overline{p_{i}} + R_{p}\left ( T\left ( \overline{p_{i}}, \overline{r_{i}} \right ) \right )$ 。其中， $R_{p}$ 是包含1*1卷積、BN和ReLU層的子網絡。T表示特徵的串聯。 $R_{p}\left ( T\left ( \overline{p_{i}}, \overline{r_{i}} \right ) \right )$ 支持局部層次的特徵 $p_{i}$ ，增強了對遮擋的識別能力和魯棒性。我們利用特徵 $\overline{p_{i}}$ 之間所有成對關係，但這需要大量的計算成本，並大幅增加特徵的維度。相比之下，我們的one VS rest關係模塊在線性時間內計算特徵 $q_{i}$ ，並保持緊湊的特徵表示。

c）：GCP：爲了表示一個完整的行人圖像，以前的方式要麼使用GAP，要麼使用GMP，或者兩者都有。GAP覆蓋了行人圖像的整個身體部分，但是容易被背景雜波和遮擋分散注意力。GMP克服了這一問題，它在丟棄背景雜波的同時，將對Re-ID有用的最具有判別性特徵聚集起來。但是，這並不包含來自整個身體部分的信息。一種利用GAP和GMP的混合方法可能表現得更好，但它也受到背景雜波的影響。在【】中已經證明，GMP比GAP更有效，我們的實驗也再次證明了這一點。基於此，我們提出了一種基於GMP的新的GCP方法，從行人各個部位提取全局特徵圖。我們在局部層次特徵上首先應用平均和最大值池化，而不是在初始特徵圖上應用GAP或GMP。我們分別用 $p_{avg}$ 和 $p_{max}$ 表示分別用平均池化和最大值池化。注意， $p_{avg}$ 和 $p_{max}$ 對背景雜波是健壯的，因爲我們使用GMP方法來獲得初始的局部特徵。也就是說，我們將每個水平區域中最具判別性的部分整合起來。特別是， $p_{max}$ 相對於主幹網絡的初始特徵圖，與GMP的結果相對應。然後，我們通過從 $p_{avg}$ 中減去 $p_{max}$ 來計算出對比特徵 $p_{cont}$ ，即他們之間的差異。除了用 $p_{max}$ 的信息外，它還聚合來自身體各個部位的大多數判別信息。我們通過增加bottleneck層來減少 $p_{cont}$ 和 $p_{max}$ 的通道數量，分別用 $\overline{p}_{max}$ 和 $\overline{p}_{cont}$ ，最後將對比特徵 $\overline{p}_{cont}$ 的互補特徵傳遞給 $\overline{p}_{max}$ 。形式上，我們得到輸入圖像的全局對比特徵： $q_{0} = \overline{p}}_{max} + R_{g}\left ( T\left ( \overline{p}}_{max}, \overline{p}}_{cont})} \right ) \right )$ 。其中， $R_{p}$ 是包含1*1卷積、BN和ReLU層的子網絡。全局特徵 $q_{0}$ 以 $\overline{p}_{max}$ 爲基礎，結合 $\overline{p}_{max}$ 和對比特徵 $\overline{p}_{cont}$ 的互補信息。因此，它繼承了GMP的優點，如對背景雜波的魯棒性，同時覆蓋整個行人身體部分。我們將上式的全局對比特徵 $q_{0}$ 與局部關係特徵 $q_{i}$ 鏈接，作爲行人圖像的特徵表示。

Conclusion：

我們爲person reID提出了一個關係網絡，考慮了身體各個部分與其餘部分之間的關係，使得每個部分層次的特徵更加具有辨別力。我們還建議使用對比特徵來表示全局person。我們在person reID上設置了一個新的技術狀態，遠遠超過了其他reID方法。消融分析清楚地證明了我們的模型中每個組件的有效性。

周郎有話說：論文中的one VS rest關係網絡還是容易理解的。GCP有點繞。

Relation Network for Person Re-identification

C#開源的兩款功能強大的錄屏神器

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net閱讀筆記

Pose-guided Visible Part Matching for Occluded Person ReID閱讀筆記

CCF 二十四點 Java

Cross-modality Person re-identification with Shared-Specific Feature Transfer閱讀筆記

python環境配置常見問題彙總

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結