SVDNet for Pedestrian Retrieval

行人重識別之特徵向量正交化

SVDNet for Pedestrian Retrieval

原文鏈接:https://arxiv.org/pdf/1703.05693.pdf

這篇文章的核心思想如下:

雖然特徵向量的維度不小(一般爲2048),但是網絡經過訓練後,特徵向量往往是高度相關的,降低了特徵向量的表達能力,進而降低了REID的性能。所以,如果能夠對特徵向量進行去相關(正交化),提升特徵向量的表達能力,那麼REID的性能便會隨之提升。

首先,通過文中的例子直觀感受一下,特徵向量高度相關的後果。
在這裏插入圖片描述
經過左側三類圖片的訓練,特徵向量的三個維度分別表示紅、粉、藍。紅色和粉色的相關性就比較高。在對右側兩幅圖片進行表示時,雖然二者對於藍色向量的差別較大,但是兩者關於紅色和粉色向量的差別很小,所以導致兩者最後的特徵向量差距很小。這便是特徵向量高度相關的惡果。

其次,介紹一下網絡結構和訓練方法。

在這裏插入圖片描述
在全連接層後面增加Eigenlayer(一般在倒數第二個全連接層後面,因爲加在最後一個全連接層後面,訓練很難擬合),這一層完全是線性操作,對輸入向量進行奇異值分解,輸出正交的特徵向量(彩色部分),再將該向量輸入到全連接層,進行分類。

訓練過程如下:
在這裏插入圖片描述

在反覆迭代後,Eigenlayer就做到了和原網絡融爲一體。而且Eigenlayer的存在也使得輸入Eigenlayer的特徵向量的表達能力不斷提升。

最後,定量看一看特徵向量正交程度和性能之間的關係。

在這裏插入圖片描述
粉線是衡量特徵向量正交性的變量,越大代表正交性越好。可以看出,隨着迭代的進行,正交性越來越好,性能也隨之提高。

總結:大三的時候一箇中科院博士生曾經對我說過,當你做的越來越多,越來越深入,你會發現CV其實是一個玩數學的東西,很多大佬都是數學非常6的。這篇文章或許給了我們一些啓發,有時候直接從數學原理(比如本文的奇異值分解)出發,或許真的會有巨大的提升。

歡迎討論 歡迎吐槽

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章