行人重識別之特徵向量正交化
SVDNet for Pedestrian Retrieval
原文鏈接:https://arxiv.org/pdf/1703.05693.pdf
這篇文章的核心思想如下:
雖然特徵向量的維度不小(一般爲2048),但是網絡經過訓練後,特徵向量往往是高度相關的,降低了特徵向量的表達能力,進而降低了REID的性能。所以,如果能夠對特徵向量進行去相關(正交化),提升特徵向量的表達能力,那麼REID的性能便會隨之提升。
首先,通過文中的例子直觀感受一下,特徵向量高度相關的後果。
經過左側三類圖片的訓練,特徵向量的三個維度分別表示紅、粉、藍。紅色和粉色的相關性就比較高。在對右側兩幅圖片進行表示時,雖然二者對於藍色向量的差別較大,但是兩者關於紅色和粉色向量的差別很小,所以導致兩者最後的特徵向量差距很小。這便是特徵向量高度相關的惡果。
其次,介紹一下網絡結構和訓練方法。
在全連接層後面增加Eigenlayer(一般在倒數第二個全連接層後面,因爲加在最後一個全連接層後面,訓練很難擬合),這一層完全是線性操作,對輸入向量進行奇異值分解,輸出正交的特徵向量(彩色部分),再將該向量輸入到全連接層,進行分類。
訓練過程如下:
在反覆迭代後,Eigenlayer就做到了和原網絡融爲一體。而且Eigenlayer的存在也使得輸入Eigenlayer的特徵向量的表達能力不斷提升。
最後,定量看一看特徵向量正交程度和性能之間的關係。
粉線是衡量特徵向量正交性的變量,越大代表正交性越好。可以看出,隨着迭代的進行,正交性越來越好,性能也隨之提高。
總結:大三的時候一箇中科院博士生曾經對我說過,當你做的越來越多,越來越深入,你會發現CV其實是一個玩數學的東西,很多大佬都是數學非常6的。這篇文章或許給了我們一些啓發,有時候直接從數學原理(比如本文的奇異值分解)出發,或許真的會有巨大的提升。
完
歡迎討論 歡迎吐槽