本文是曠視入選CVPR2020論文之一。爲了獲得遮擋ReID更加魯棒的對齊能力，本文提出了一種新的框架，來學習具有判別力特徵和人體拓撲信息的高階關係。

論文名稱：High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification
論文鏈接：https://arxiv.org/abs/2003.08177

導語

行人重識別（ReID）任務的目標是去匹配不同攝像機拍攝到的同一個人的圖像，它廣泛應用於視頻分析、智慧城市等領域。雖然人們近來提出了多種針對ReID的方法，然而，它們大多側重於人的全身圖像，忽略了更具挑戰性且也是實際應用中經常出現的行人遮擋問題。

如圖1所示，人們很容易會被一些障礙物（如行李、櫃檯、人羣、汽車、樹木）遮擋，或者由於部分身體走出了攝像機拍攝區域而造成遮擋。因此，有必要去準確匹配只具有局部可觀測的行人圖片，這就是所謂的遮擋行人重識別（Occluded Person Re-Identification）問題。

圖1：使用高階信息來解決遮擋行人重識別

與匹配出現人整體信息的情況相比，遮擋情況下的ReID更具挑戰性，原因如下：（1）在遮擋區域中，圖像包含的辨別信息較少，使得更容易被匹配到錯誤的人身上去。（2）基於身體部位之間的特徵信息做匹配雖然有效，但需要事先進行嚴格的人體對齊，因此遮擋嚴重時效果不佳。

近年來，人們提出了許多針對遮擋或具體部位的ReID方法，然而大多數只考慮了特徵學習和對齊的一階信息。本文認爲，除此之外，高階信息同樣應被考慮，且可能會使遮擋ReID問題得到更好的解決。

在圖1(a)中，可以看到關鍵點信息會受遮擋(1, 2)和異常值(3)所影響。比如，關鍵點1和2被遮擋，導致無意義特徵；關鍵點3是異常值，導致對其偏差。

圖1(b)展示的是一個常見的解決方案。它提取關鍵點區域的局部特徵，並假設所有關鍵點準確且局部特徵對齊良好。在這裏，所有三個階段（特徵提取、對齊、匹配）都依賴於關鍵點的一階信息，魯棒性不強。

簡介

在本文方法中，如1©所示，曠視研究院提出了一個新的框架，用於更具判別力的特徵學習和魯棒的特徵對齊。在特徵學習階段，研究員通過將一張圖像的一組局部特徵視爲圖（graph）的節點（node）來學習關係信息。通過在圖中傳遞信息，因關鍵點被遮擋而導致的無意義特徵問題，可以通過其相鄰的有意義的特徵進行改善。

在對齊階段，研究員使用圖匹配算法（graph matching）來學習魯棒的對齊能力。這種方法除了能用點到點的對應關係進行對齊外，它還能對邊到邊的對應關係進行建模。然後，通過構造一個跨圖像的圖，我們可以將對齊信息嵌入進特徵。正因如此，異常關鍵點的特徵才能通過其在另一幅圖像上的相應特徵來修復。最後，在驗證損失的監督下，研究人員用網絡來學習相似度，而不是使用預先定義的距離來計算相似度。

具體地說，爲了解決行人重識別場景下的遮擋問題，曠視研究院提出了一個新的框架來聯合建模高階關係和人體拓撲信息。如圖2所示，本工作框架包括三個模塊，一階語義模塊(S)、高階關係模塊®和高階人體拓撲模塊(T)。

圖2：本文方法總體架構

（1）在S中，首先利用CNN backbone學習特徵圖，用人體關鍵點估計模型來學習關鍵點，然後，提取對應關鍵點的語義信息；

（2）在R中，人們將習得的圖像語義特徵看作圖的節點，然後提出了一個方向自適應的圖卷積層（ADGC/Adaptive-Direction Graph Convolutional）層來學習和傳遞邊緣特徵信息。ADGC層可以自動決定每個邊的方向和度。從而促進語義特徵的信息傳遞，抑制無意義和噪聲特徵的傳遞。最後，學習到的節點包含語義和關係信息。

（3）在T中，提出一個跨圖嵌入對齊（CGEA/cross-graph embedded-alignment）層。它以兩個圖（graph）作爲輸入，利用圖匹配策略學習其之間節點的對應關係，然後將學習到的對應關係視爲鄰接矩陣來傳遞信息。正因如此，相關聯的特徵才能被增強，對齊信息才能被嵌入到特徵中去。最後，爲了避免強行一對一對齊的情況，研究員會通過將兩個圖映射到到一個logit模型並用一個驗證損失進行監督來預測其相似性。

方法

曠視研究院提出的框架，包括一個一階語義模塊（S），它可以取人體關鍵點區域的語義特徵；一個高階關係模塊（R），它能對不同語義局部特徵之間的關係信息進行建模；一個高階人類拓撲模塊（T），它可以學習到魯棒的對齊能力，並預測兩幅圖像之間的相似性。這三個模塊以端到端的方式進行聯合訓練。圖2展示了方法的總體框架。

語義特徵提取

該模塊的目標是提取關鍵點區域的一階語義特徵。這樣做是因爲，很多方法已經證明，基於身體局部的特徵表示對行人重識別是有效的；其次，局部特徵的準確對齊對於針對遮擋或具體部位的ReID也是必要的。

在上述思想，與近來行人重識別、人體關鍵點預測研究的啓發下，研究員利用一個卷積神經網絡來提取不同關鍵點的局部特徵。需要注意的是，雖然人體關鍵點預測已經能夠達到很高的精度，但他們依然會因爲畫面中存在遮擋和只出現部分身體而性能依然不佳，導致關鍵點的位置和其置信度不準確。因此，才需要接下來的兩個模塊。

高階關係學習

雖然通過語義特徵提取能夠獲得不同關鍵點區域的一階語義信息，但是這依然無法應對由於行人畫面不完整所帶來的被遮擋ReID問題。爲了獲取更具判別力的特徵，研究人員引入了圖神經網絡（GCN）方法來建模高階關係信息。

在GCN中，不同關鍵點區域的語義特徵被視爲節點。通過在節點之間傳遞信息，一階語義信息（節點特徵）和高階特徵（邊特徵）都可以被照顧到。雖然如此，被遮擋的ReID還是存在一個問題，即被遮擋區域的特徵經常是無意義甚至噪聲干擾。當在這些特徵再圖中進行傳遞時，甚至可能帶來更多噪聲，對被遮擋ReID產生副作用。

因此，研究員新提出了一個方向自適應的圖卷積層ADGC，用它來動態學習信息傳遞的方向和degree。藉助它，研究員可以自動抑制無意義特徵信息，促進有效語義特徵信息的傳遞。

給出兩張行人圖片(x1,x2)，它們基於關係信息相似度可以由公式6計算。K是關鍵點個數，\beta是對應人體關鍵關鍵點的置信度，v經過高階關係學習優化後，對應的關鍵點的特徵。

高階人體拓撲學習

在基於身體部位的特徵表示已經被證明對行人重識別是有效的。一種簡單的對齊策略是直接去匹配同樣關鍵點之間的特徵。然而這種一階對齊策略並不能應對異常值，特別是當畫面人物有大面積遮擋的情況。

相反，圖匹配策略（graph matching）可以自然地將人體拓撲的高階信息也考慮進去。但它只能學習一對一的對應關係，導致這種硬對齊策略對於異常值仍然十分敏感，性能容易受到干擾。爲此，研究員提出了一個跨圖的嵌入對齊層，它不僅能夠充分利用經圖匹配算法習得的人體拓撲信息，還能避免來自一對一對齊的干擾。

給出兩張行人圖片(x1,x2)，它們的基於人體拓撲信息的相似度可以由公（式1）0計算。V是經過高階人體拓撲學習優化後的所有特徵的連接，f是一個全連接層，\sigma 是sigmoid激活函數。

訓練與推理

在訓練階段，本文框架的總體目標函數爲：

其中λ代表對應項的權重。研究人員通過最小化L來對框架進行端到端訓練。

對於相似度計算，給定一對圖像（x1，x2），人們可以由公式6計算出的相似度（下圖）

以得到其之間的關係信息，由公式10得到的相似度（下圖）

得到拓撲結構信息。在計算最終相似度時，可以結合這兩個相似度來計算。

在推理階段，給定一張查詢圖像x_q，首先計算其與庫中所有圖像的相似度x^R，得到分數最高的n張，然後用公式13計算最終的相似度 s以修正這n張圖片的選擇。徵表示爲圖的節點，並提出了一種自適應方向圖卷積（ADGC）層，以促進語義特徵的信息傳遞，抑制無意義和噪聲特徵的信息傳遞。

爲了學習拓撲信息，曠視研究院提出了一種具有驗證損失的交叉圖嵌入對齊（CGEA）層，它可以避免敏感的硬一對一對齊，並執行魯棒的軟對齊。最後，在封閉、平行和整體數據集上的大量實驗證明了曠視研究院提出的框架的有效性。

實驗

遮擋（Occluded）數據集結果

研究人員用本文框架在在兩個遮擋數據集（Occluded-Duke and Occluded-ReID）上進行了實驗。通過和另外4種方法（vanilla holistic ReI]、 holistic ReID methods with key-points information]、partial ReI]、occluded ReI]）進行性能對比，結果如表2所示。

表2 在遮擋（occluded）數據集上的實驗結果

可以發現本文提出的框架 HONet 分別在Occluded- Duke和Occluded-ReID上取得了Rank-1 55.1%和80.4%的最佳性能，證明了方法的有效性。

另外，vanilla holistic ReID和holistic ReID methods with key-points information的效果並沒有明顯差異，這意味着僅僅基於關鍵點信息並不能在被遮擋ReID任務上取得很好效果。相反，對於partial ReID和occluded ReID方法來說，它們在被遮擋數據集上取得了顯著效果。這也說明，這兩種ReID方法在學習有判別力度的特徵和進行特徵對齊時有類似的問題。

半身（Partial）數據集結果

在實際應用中，被遮擋和出現部分身體的情況經常發生，所以爲了進一步測試本文框架性能，研究人員也在兩個partial 數據集（Partial-REID，Partial-iLIDS）上進行了實驗。需要說明的是，由於這兩個數據集太小，所以研究人員用Market-1501作爲訓練集，將這兩個數據集作爲測試集。從結果可以看到，本文提出的框架顯著超越了其他方法。

表3：在半身（partial）數據集上的實驗結果

全身（Holistic）數據集結果

雖然近來的針對遮擋或具體身體部位的ReID方法取得了一定成果，但是它們卻在出現整體人體（holistic）的數據集上表現不佳。這是因爲特徵訓練和對齊時有噪聲干擾。爲此，研究人員也將本文方法在兩個holistic數據集（Market-1501和DuekMTMTC-reID）上進行了實驗。

表4：在全身（holistic）數據集上的實驗結果

通過與3種vanilla ReID方]，3種基於human-parsing信息的ReID方]，以及4種基於關鍵點信息的ReID方]的性能對比，見表4。

可以發現3種vanilla ReID方法性能表現相當，而使用human-parsing和關鍵點這些外部信息的方法表現較差。這說明簡單地利用這些外部信息可能不會讓模型的性能在holistic數據集上有所改善。這是因爲holistic ReID數據集中大部分的圖像都能被很好地檢測，vanilla holistic ReID方法足以學習到具有判別力的特徵。

最後，由於本文提出的ADGC層可以抑制噪聲特徵，CGEA層可以避免僵硬的一對一對齊，所以能夠發現框架在這兩個holistic ReID數據集上也取得了頗具競爭力的性能表現。

結論

爲了獲得魯棒的對齊能力，本文提出了一種新的框架，來學習具有判別力特徵和人體拓撲信息的高階關係。爲了學習關係信息，曠視研究院將圖像的局部特徵表示爲圖（graph）的節點（node），並提出了一種自適應方向圖卷積（ADGC）層來促進語義特徵的信息傳遞，抑制無意義和噪聲特徵的信息傳遞。

對於學習拓撲信息，研究人員提出了跨圖（graph）的嵌入對齊層（CGEA），它以兩個圖（graph）作爲輸入，利用圖匹配策略學習其之間節點的對應關係，然後將學習到的對應關係視爲鄰接矩陣來傳遞信息。它可以避免敏感地硬一對一對齊，並執行魯棒的軟對齊。最後，在occluded、partial和holistic三種數據集上進行的大量實驗證明了本文提出的框架的有效性。

參考文獻

Shaogang Gong, Marco Cristani, Shuicheng Yan, and Chen Change Loy. Person Re-Identification. 2014.
Liang Zheng, Yi Yang, and Alexander G Hauptmann. Per- son re-identification: Past, present and future. arXiv preprint arXiv:1610.02984, 2016.
Jiaxuan Zhuo, Zeyu Chen, Jianhuang Lai, and Guangcong Wang. Occluded person re-identification. In 2018 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. IEEE, 2018.
Jiaxu Miao, Yu Wu, Ping Liu, Yuhang Ding, and Yi Yang. Pose-guided feature alignment for occluded person re-identification. In ICCV, 2019.
Lingxiao He, Jian Liang, Haiqing Li, and Zhenan Sun. Deep spatial feature reconstruction for partial person re- identification: Alignment-free approach. pages 7073–7082, 2018.
Lingxiao He, Yinggang Wang, Wu Liu, Xingyu Liao, He Zhao, Zhenan Sun, and Jiashi Feng. Foreground-aware pyra- mid reconstruction for alignment-free occluded person re- identification. arXiv: Computer Vision and Pattern Recogni- tion, 2019.

CVPR 2020 | 曠視研究院提出新方法，優化解決遮擋行人重識別問題

導語

簡介

方法

語義特徵提取

高階關係學習

高階人體拓撲學習

訓練與推理

實驗

遮擋（Occluded）數據集結果

半身（Partial）數據集結果

全身（Holistic）數據集結果

結論

.NET開源強大、易於使用的緩存框架 - FusionCache

JIT in MegEngine

曠視推出Brain++商業版，降低企業AI部署門檻

工程之道，曠視MegEngine工業級模型量化能力的構建與實戰

曠視天元深度學習框架Beta版的技術升級與生態建設

深度解析MegEngine亞線性顯存優化技術

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結