計算機視覺之對抗樣本(一):一文讀懂Rethinking softmax cross entropy loss for adversarial robustness(ICLR2020)和MMC

Rethinking softmax cross entropy loss for adversarial robustness是一篇關於對抗樣本的Paper,詳見arXivGithub

摘要:

       先前的工作表明,對抗魯棒性泛化需要更大的樣本複雜度(arXiv)。這使得在相同的數據集(例如CIFAR-10)上,僅用準確率指標不足以訓練魯棒的模型。由於收集新的訓練數據會付出高昂的代價,因此通過在特徵空間中引入具有高樣本密度的區域來更好地利用給定的數據,使有足夠的樣本進行穩健的學習。

       首先,softmax交叉熵損失(SCE)及其變體傳達了不合適的監督信號,這鼓勵了學習的特徵點在訓練中稀疏地散佈在整個空間中。這啓發我們提出最大化馬氏距離(Max-Mahalanobis)中心損失(MMC),以明確誘發密集的特徵區域,從而提高魯棒性。即MMC損失促使模型集中於學習有序和緊湊表示,這些表示圍繞針對不同類別的預設最佳中心聚集。我們證明,即使在強大的自適應攻擊下,應用MMC損失也可以顯着提高魯棒性,同時與SCE損失相比,只需很少的額外計算即可保持乾淨輸入的最新精度。

MMC最大化馬氏距離中心

       馬氏距離(Mahalanobis distance)表示點與一個分佈之間的距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是,它考慮到各種特性之間的聯繫(例如:一條關於身高的信息會帶來一條關於體重的信息,因爲兩者是有關聯的),並且是尺度無關的(scale-invariant),即獨立於測量尺度。對於一個均值爲μ,協方差矩陣爲Σ的多變量向量,其馬氏距離爲sqrt( (x-μ)'Σ^(-1)(x-μ) )。-百度百科

單個數據點的馬氏距離

數據點x, y之間的馬氏距離

其中Σ是多維隨機變量的協方差矩陣,μ爲樣本均值,馬氏距離理解及推導見知乎

       歐式距離就好比一個參照值,它表徵的是當所有類別等概率出現的情況下類別之間的距離。此時決策面中心點的位置就是兩個類別中心的連線的中點。如圖1所示,而當類別先驗概率並不相等時,如果仍然用中垂線作爲決策線是不合理的,將出現判別錯誤(綠色類的點被判別爲紅色類),假設圖1中綠色類別的先驗概率變大,那麼決策線將左移,如圖2黃線。左移的具體位置,就是通過馬氏距離計算而來。馬氏距離引入的協方差參數,表徵的是點的稀密程度。-百度文庫

       引入生成對抗網絡的思想:圖像皆分佈。每一張圖片在計算機眼中就是一個像素矩陣,因此將所有的圖片代表的矩陣合在一起,就形成了一個巨大的矩陣空間(如上圖所示,裏面每一個點代表一個矩陣(也就是一張圖片))。在這個空間當中,如果把所有“狗”的圖片找出來,會發現它們聚集在矩陣空間當中的某一片區域,這個區域就代表了“狗”的圖像對應的分佈。同理,其他所有類型的圖像(如貓,車,人等)都會滿足這樣的特性。因此這就是圖像皆分佈的意思。 -G-Lab

       那麼對抗樣本的存在空間可以看作爲兩個分佈的重疊區域,例如紅色圓與綠色圓相交區域。馬氏距離的決策曲線不僅取決於特徵之間的距離,而且還關注樣本點的稀密程度,可以更好的將貓的分佈判別出來。

       馬氏距離與歐氏距離的唯一區別是它認爲空間是各向異性的。各向異性的具體參數,是由一個協方差矩陣表示的。把這個協方差矩陣考慮成一個多維正態分佈的協方差陣,則這個分佈的密度函數的等高線,就是個橢圓。-百度文庫

Max-Mahalanobis center

       在這裏使用馬氏距離損失替換softmax交叉熵損失,替換原因是softmax只依賴於邏輯關係,使學習到的特徵在空間上有稀疏分佈的趨勢,不能直接監督學習表徵,而Mahalanobis可以更好地學習到樣本地特徵。

      預先設定不可訓練類中心,然後最小化與中心損失相似度以誘導向中心聚集,再通過馬氏距離損失顯式控制類間離散度,在訓練過程中進一步提高類間緊緻度,誘導出高密集區域的樣本集進行訓練,類似於難例挖掘

實驗

由於個人水平有限,文中如有錯誤還請斧正。

文章僅限於學習交流,部分參考已給出,如有侵權請及時聯繫。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章