論文提出了Circle loss,不僅能夠對類內優化和類間優化進行單獨地處理,還能根據不同的相似度值調整對應的梯度。總體而言,Circle loss更靈活,而且優化目標更明確,在多個實驗上都有較好的表現,個人認爲是一個很好的工作
來源:曉飛的算法工程筆記 公衆號
論文: Circle Loss: A Unified Perspective of Pair Similarity Optimization
Introduction
論文認爲兩類基礎的深度特徵學習方法classification learning(比如softmax)和pair-wise learning(比如triplet loss)均是爲了最小化類內相似度和類間相似度,理想是。而大部分常用的損失函數都是將和embed成相似度對,然後用各自研究的策略最小化的值。這種策略提升等同於下降,但其實這種對稱的優化方法很容易存在以下問題:
- 缺乏優化的靈活性。由於基於損失函數同時優化和,導致和的梯度的幅值是一樣的。當和均很小時,依然會使用較大的梯度懲罰,這是不高效且不合理的。
- 收斂目標不明確。優化通常會遇到決策邊界問題。而這個邊界目前是不夠明確的,首先圖1a中的ABC點均到決策邊界的距離相等,但其收斂點卻不太一樣(梯度正交於?)。其次,不同收斂點間的類內和類間相似度差異可能較小,比如樣本和,雖然邊際(margin)均爲0.3,但和的差距僅爲0.1,這樣的收斂狀態會影響整體樣本的區分性。
基於上面的發現,論文認爲不同的相似分數應該有不同的懲罰力度,首先將轉換爲,和是獨立的權重因子,分別與和線性相關,這樣不僅使得和能以不同的步伐進行學習,還可以更具相似分數調整幅值。這樣的優化策略使得在空間內呈現圓形,故稱爲Circle loss。
Circle loss主要從以下3個方面入手改變深度特徵學習的內在特性:
- 統一損失函數來表示兩類基礎的深度特徵學習方法classification learning(比如softmax)和pair-wise learning(比如triplet loss)。
- 靈活地優化,由於和會隨着對應的相似度分數來改變對應的梯度,如圖1b的點ABC的梯度是各不一樣的。
- 明確的收斂目標,在圓形的決策邊界,circle loss有更傾向的決策狀態,如圖2b的ABC點,均偏向於更新到點T,原因後面會講到。
論文的主要貢獻如下:
- 提出Circle loss,通過有監督地加權不同相似度分數來進行深度特徵學習,能夠更靈活地優化,並且有明確的收斂目標。
- Circle loss能夠兼容class-level標籤和pair-wise標籤,通過簡單的修改就能變化爲triplet loss或softmax loss。
- 在不同的任務(人臉識別,ReID,細粒度圖片檢索等)上進行實驗證明Cirle loss的優勢。
A Unified Perspective
給予特徵空間的單樣本,假設有個類內相似分數和個類間相似分數關聯,定義相似度分數爲和。
爲了最小化每個以及最大化每個,統一的損失函數如公式1,其中爲縮放因子,爲邊際(margin)。公式1迭代每個相似度對來減小,通過簡單的修改就能變爲triplet loss和classification loss。
Given class-level labels
在分類層計算樣本與各類的相似度以及權重向量,得到個類間相似度以及單個類內相似度。
結合公式1,得到公式2的softmax變種AM-Softmax,當時,公式2能夠進一步變化爲Normface,當將cosine相似度替換爲內積以及設置時,則爲softmax loss。
Given pair-wise labels
計算mini-batch中樣本與其它樣本的相似性,得到類間相似度以及單個類內相似度。
結合公式1,,,得到帶hard mining的triplet loss,用於調節mining的程度,當時,就是絕對的hard mining。
Gradient analysis
公式2和公式3展示了公式1的通用性,目標均是優化。論文假設僅存在單個和,各種損失函數的梯度進行了可視化,如圖2所示,觀察到了主流損失函數的幾點梯度表現:
- 在達到決策邊界前,和的梯度是相同的,這缺乏優化的靈活性。
- 梯度在收斂前幾乎是不變,而在收斂時則突然下降。比如圖2的B點相對於A點是更優的,但是兩點的梯度幾乎一樣,這也表明了優化的不靈活。
- 決策邊界平行於(圖2的白線),不同的點 會可能以邊界上的不同點或爲目標,導致收斂目標不明確,如之前所述的。
A New Loss Function
Self-paced Weighting
爲了讓每個相似度分數能夠根據當前優化狀態調整學習的幅度,先忽略公式1的並調整爲Circle loss,如公式4所示,和爲非負權重因子。
假定的最優值爲,的最優值爲,則和的計算如公式5,稱爲self-paced manner,爲cut-off at zero操作來保證和非負。
加權是分類loss中的常見操作,所有的相似度分數共享同一個縮放因子,而Circle loss則根據每個相似度分類的值再進行一次獨立的加權,允許不同的學習幅度,能夠更加地靈活。
Within-class and Between-class Margin
在之前的討論中,主流損失函數的的優化是對稱的(減少等同於增大),僅需一個邊際(margin)即可。而在Circle loss中,的優化是非對稱的,因此需要設置獨立的邊際,如公式6,其中和爲類間邊際和類內邊際,目標是以及,下面探討邊際的設置問題。
考慮簡單的二分類問題,決策邊界爲,結合公式5和6,決策邊界可轉換爲公式7,其中,即爲Circle loss決策邊界爲圓的弧,如圖1b所示,中心點爲,半徑爲。
Circle loss包含5個參數,論文通過設置,,,來減少參數,最終將公式7轉換爲公式8。基於公式8的決策邊界,可以看到其目標爲和,參數控制決策邊界的半徑可以看作是鬆弛因子,即可將Circle loss目標改爲和。
The Advantages of Circle Loss
Circle loss關於和的梯度分別爲公式9和公式10,在簡單的二分類問題上,梯度的可視化如圖2c所示,可以觀察到幾點梯度表現:
- Circle loss能夠平衡地優化和,動態地調整懲罰各自的力度。
- 逐漸衰弱的梯度,如圖2c所示,在訓練初期,遠離決策邊際將獲得較大的梯度,隨着逐漸接近收斂,其梯度逐漸衰減,並且對具有魯棒性。
- 更明確的收斂目標,如圖1b所示,Circle loss更傾向於收斂至點,因爲相對於其他點,點的和差距最小,加上梯度足夠靈活,最容易學習到該狀態。因爲和差距越大,需要將數據劃分地更開,更難學習。
Experiment
Face Recognition
Person Re-identification
Fine-grained Image Retrieval
Impact of the Hyper-parameters
Investigation of the Characteristics
通過觀察圖4發現:
- 在初始時,所有的和都較小,這是由於高維隨機特徵傾向於彼此分離。而在訓練中,得到了顯著的較大權重,佔據了訓練,使得相似度快速增加,這證明了Circle loss使用更靈活且平衡的優化手段。
- 在訓練的最後,Circle loss在和的收斂上都比AMSoftmax要好。
論文可視化了收斂後的相似度分佈,可以看到,Circle loss以更緊密地方式通過了決策邊界,而AMSoftmax則較爲稀疏地通過了,這表明Circle loss的優化目標較爲明確的,特徵空間可分離性更好,這種情況在圖5c中更爲明顯。
CONCLUSION
論文將classification learning和pair-wise learning進行了統一的表達,並根據目前的損失函數實際存在問題進行了改進,提出了Circle loss,不僅能夠對類內優化和類間優化進行單獨地處理,還能根據不同的相似度值調整對應的梯度。總體而言,Circle loss更靈活,而且優化目標更明確,在多個實驗上都有較好的表現。
如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公衆號【曉飛的算法工程筆記】