噪聲標籤淺析

目錄

1 Co-teaching: 面向極度噪聲標籤的魯棒性深度神經網絡訓練模型 (NIPS 2018)

1.1 動機

1.2 貢獻

1.3 實驗分析

1.4 我的思考

2 MixMatch: 一種全面的半監督學習方法 (NIPS 2019)

2.1 動機

2.2 貢獻

2.3 實驗分析

2.4 我的思考

3 DivideMix: 採用半監督學習進行噪聲標籤學習 (ICLR 2020)

3.1 動機

3.2 貢獻

3.3 實驗分析

3.4 我的思考

4 Boosting Co-teaching: 標籤噪聲的壓縮正則化 (CVPR 2021)

4.1 動機

4.2 貢獻

4.3 實驗分析

4.4 我的思考

 


1 Co-teaching: 面向極度噪聲標籤的魯棒性深度神經網絡訓練模型 (NIPS 2018)

原文

代碼

1.1 動機

帶噪聲標籤的深度學習實際上是一個挑戰,因爲深度模型的容量非常大,在訓練過程中它們遲早可以完全記住這些噪聲標籤。然而,最近關於深度神經網絡記憶效果的研究表明,深度神經網絡會先記憶乾淨標籤的訓練數據,然後再記憶嘈雜標籤的訓練數據。

1.2 貢獻

在本文中,我們提出了一種新的深度學習範式,稱爲“Co-teaching”,以對抗噪聲標籤。即,我們同時訓練兩個深度神經網絡,並讓它們在每個小批處理中進行互教:首先,每個網絡前饋所有數據,選取一些可能是乾淨標籤的數據;其次,兩個網絡相互通信,在這個小批量中應該使用哪些數據進行訓練;最後,每個網絡回傳由其對等網絡選擇的數據並更新自身網絡權重超參數。

本文的Co-teaching模型結構如下:

在Co-teaching中,兩個網絡有不同的初始化,所以有不同的學習能力,這樣的誤差會在信息交換的過程中被緩解。Co-teaching的兩個網絡,在交替過程中,由於網絡的不同參數初始化,會對其中的錯誤數據進行遺忘,即大概率不會擬合的很好,從而起到誤差累積的緩解作用。

算法僞碼:

1.3 實驗分析

本文的實驗在MNIST,CIFAR10和CIFAR100三種數據集上進行了實驗分析,具體如下:

 

 

 

 

超參數分析實驗:

1.4 我的思考

本文的模型具有普遍性,即其Co-teaching的選擇策略不會受到backbone的不同的影響,比如採用簡單的MLP網絡進行噪聲標籤訓練也是適用的。另外,本文的引用量也比較高,目前以達到五百多次,在噪聲標籤領域也是一篇影響力很大的文章,很多新的方法都會參考本文模型的思想。

另外,本文提出的神經網絡模型容易先對乾淨標籤數據進行擬合,隨着訓練次數的上升,逐漸會對噪聲標籤數據進行擬合。這一現象可能也表明,在部分數據集上,並不是訓練的epoch次數越大越好,並且也讓我們對於神經網絡的偏好有了一種新的理解。

然而,本文的策略也有一個比較大的問題,其會遺忘網絡認定的噪聲標籤數據,如果遺忘率設定較大,則會導致模型難以學習到原始數據集的分佈,導致預測性能較差,即很難對噪聲標籤率比較大的數據進行建模學習。而文章中,默認的遺忘率是0.2,相關最新文章也表明,在真實噪聲標籤數據集中,設定爲0.3比較合理

 


2 MixMatch: 一種全面的半監督學習方法 (NIPS 2019)

原文

代碼

2.1 動機

最近在訓練大型深度神經網絡方面取得的成功,在很大程度上要歸功於大型含標籤數據集的存在。然而,對於許多學習任務來說,收集有標記的數據是昂貴的,因爲它必然涉及到專家知識,例如醫療領域,需要相關專業醫生來對數據進行打標籤。

半監督學習已經被證明是利用無標記數據來減輕對大型標記數據集的依賴的一個強有力的範例。同時,半監督學習通過利用未標記數據,在很大程度上減輕了模型對標記數據的需求。

2.2 貢獻

本文通過採用數據增強對無標註數據進行標籤猜測,並結合MixUp混合有標籤和無標籤數據的策略,提出了一種新的半監督學習方法:MixMatch。

(1)多次數據增強,平均加Sharpen策略進行標籤猜測

 

     具體原理公式如下:

    (2)結合改進的MixUp策略,獲取經過數據增強和標籤猜測處理後的含標註的數據和含猜測標註的數據

最後,看一下MixMatch的整理算法流程和損失函數的設定:

損失函數:

2.3 實驗分析

本文在CIFAR10、CIFAR100、SVHN和STL-10四種數據集上進行了半監督實驗分析。其中含標籤的數據,從250-4000設定,其餘採用無標註數據來進行分析。

相關實驗結果表明本文的MixMatch算法能夠在含250組標註數據的情況下,取得baseline算法需要4000組甚至5000組標註數據的性能。具體實驗結果如下:

 

 

 

 

 

 

 

2.4 我的思考

本文算法中最重要的環節,是數據增強,而這一步驟限制了本文算法難以應用到一般的序列化數據集上,即非圖像數據一般難以在下游任務應用之前合理地利用數據增強來提高模型的性能。

然而,本文對含標註的數據採用交叉熵損失函數,對無標籤的數據採用均方誤差損失函數的思路,可以借鑑。另外,本文最大的一個亮點在於猜測標籤步驟中採用了Sharpen方法,而這一處理機制在本文的消融實驗表明是本文算法的核心組成之一,而另一核心組成則是MixUp機制。

因此,在於後續研究半監督學習時,可以嘗試採用MixUp和Sharen以及均方誤差損失函數的思路來對模型的性能進行嘗試性調節。

 


3 DivideMix: 採用半監督學習進行噪聲標籤學習 (ICLR 2020)

原文

代碼

3.1 動機

  衆所周知,深度神經網絡的建模學習非常依賴標籤。在使用深度網絡進行學習時,爲了降低打標籤的成本,人們做出了大量的努力。兩個突出的方向包括使用帶噪標籤的學習和利用無標籤數據的半監督學習。

3.2 貢獻

在這項工作中,我們提出了DivideMix,一個利用半監督學習技術學習帶噪聲標籤的新框架。其中,DivideMix採用混合模型對單樣本損失分佈進行建模,動態地將訓練數據劃分爲乾淨樣本的有標籤數據集和噪聲樣本的無標籤數據集,並對有標籤數據和無標籤數據進行半監督訓練。爲了避免確認偏差,我們同時訓練了兩個不同的網絡,其中每個網絡使用從另一個網絡的數據集劃分(Co-teaching思想)。在半監督訓練階段,我們改進了MixMatch策略,分別對已標註樣本和未標註樣本進行標籤共細化和標籤共猜測。

本文的樣本交互選取策略其實和2018年的NIPS的樣本Loss選擇策略很類似,一個是在訓練的Loss層面進行樣本選擇,一個是在網絡開始訓練時就選定好乾淨的含標籤數據,具體模型的算法僞碼如下:

 

 

  在MixMatch基礎上,添加了對含標籤數據的數據增強和標籤認定的步驟,具體如下:

另外,本文提到了採用熵來促使模型學習不對稱的噪聲數據,具體如下:

 

   在模型的整體Loss方面添加了正則化Loss,從而使得模型能夠有效區分不同類的預測能力,具體如下:

 

 

 

3.3 實驗分析

本文在CIFAR10, CIFAR100, Clothing1M和WebVision四種數據集上進行了實驗,具體如下:

 

 

 

消融實驗結果如下:

 

 

 

3.4 我的思考

本文最大的亮點是其最終的實驗結果提升幅度較大,也是編委和評審專家最認同的一點。而文章的整體算法模型和創新都統一隻給了6分。因此,在論文的創新點方面,如果最大化地提升最終的實驗結果也是一個不錯突破點。

另外,看了ICLR上的相關討論和評分審稿意見,得出本文的模型過於複雜,並且可能並不太可能成爲主流的噪聲標籤框架模型。但是,本文的實驗結果確需要被最新模型拿來對比,即本文模型能夠成爲一個Strong baseline。

 


4 Boosting Co-teaching: 標籤噪聲的壓縮正則化 (CVPR 2021)

原文

代碼

4.1 動機

本文研究了標籤噪聲存在下的圖像分類模型的學習問題。我們重新討論一個簡單的名爲壓縮正則化的Nested Dropout。我們發現Nested Dropout雖然最初被提出用於快速信息檢索和自適應數據壓縮,但可以適當地正則化神經網絡來對抗標籤噪聲。

此外,由於其簡單性,它可以很容易地與Co- teaching結合,以進一步提高性能。

4.2 貢獻

我們最終的模型仍然簡單而有效:它在兩個具有標籤噪聲的真實數據集Clothing1M和ANIMAL-10N上取得了與最先進的方法相當甚至更好的性能。在Clothing1M上,我們的方法獲得了74.9%的準確率,略優於DivideMix。

本文希望其提出的簡單方法可以作爲標籤噪聲領域一個強大的baseline。

Nested Dropout原理如下:

4.3 實驗分析

本文實驗在Clothing 1M和ANIMAL-10N兩個真實的噪聲標籤數據集上執行了實驗,具體如下:

 

 

 

超參數分析:

 

 

 

4.4 我的思考

本文的Dropout策略很大可能對backbone的要求比較高,而且比較偏向圖像數據集,對於一般的序列化或者低維數據集,其性能可能無法展現。另外,本文的類似Dropout策略,有種特徵選擇的思維,即選取其中能夠區分樣本的對於維度的representation。

相比之下,Co-teaching策略則是對於backbone的要求較低,即其是具有較高的普遍性。不過,本文的Nested Dropout的策略,很可能會讓相關研究看看特徵選擇或者去探究dropout策略真正起作用的實質。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章