目錄

1 Co-teaching: 面向極度噪聲標籤的魯棒性深度神經網絡訓練模型 (NIPS 2018)

1.1 動機

1.2 貢獻

1.3 實驗分析

1.4 我的思考

2 MixMatch: 一種全面的半監督學習方法 (NIPS 2019)

2.1 動機

2.2 貢獻

2.3 實驗分析

2.4 我的思考

3 DivideMix: 採用半監督學習進行噪聲標籤學習 (ICLR 2020)

3.1 動機

3.2 貢獻

3.3 實驗分析

3.4 我的思考

4 Boosting Co-teaching: 標籤噪聲的壓縮正則化 (CVPR 2021)

4.1 動機

4.2 貢獻

4.3 實驗分析

4.4 我的思考

1 Co-teaching: 面向極度噪聲標籤的魯棒性深度神經網絡訓練模型 (NIPS 2018)

原文

代碼

1.1 動機

帶噪聲標籤的深度學習實際上是一個挑戰，因爲深度模型的容量非常大，在訓練過程中它們遲早可以完全記住這些噪聲標籤。然而，最近關於深度神經網絡記憶效果的研究表明，深度神經網絡會先記憶乾淨標籤的訓練數據，然後再記憶嘈雜標籤的訓練數據。

1.2 貢獻

在本文中，我們提出了一種新的深度學習範式，稱爲“Co-teaching”，以對抗噪聲標籤。即，我們同時訓練兩個深度神經網絡，並讓它們在每個小批處理中進行互教:首先，每個網絡前饋所有數據，選取一些可能是乾淨標籤的數據;其次，兩個網絡相互通信，在這個小批量中應該使用哪些數據進行訓練;最後，每個網絡回傳由其對等網絡選擇的數據並更新自身網絡權重超參數。

本文的Co-teaching模型結構如下：

在Co-teaching中，兩個網絡有不同的初始化，所以有不同的學習能力，這樣的誤差會在信息交換的過程中被緩解。Co-teaching的兩個網絡，在交替過程中，由於網絡的不同參數初始化，會對其中的錯誤數據進行遺忘，即大概率不會擬合的很好，從而起到誤差累積的緩解作用。

算法僞碼：

1.3 實驗分析

本文的實驗在MNIST，CIFAR10和CIFAR100三種數據集上進行了實驗分析，具體如下：

超參數分析實驗：

1.4 我的思考

本文的模型具有普遍性，即其Co-teaching的選擇策略不會受到backbone的不同的影響，比如採用簡單的MLP網絡進行噪聲標籤訓練也是適用的。另外，本文的引用量也比較高，目前以達到五百多次，在噪聲標籤領域也是一篇影響力很大的文章，很多新的方法都會參考本文模型的思想。

另外，本文提出的神經網絡模型容易先對乾淨標籤數據進行擬合，隨着訓練次數的上升，逐漸會對噪聲標籤數據進行擬合。這一現象可能也表明，在部分數據集上，並不是訓練的epoch次數越大越好，並且也讓我們對於神經網絡的偏好有了一種新的理解。

然而，本文的策略也有一個比較大的問題，其會遺忘網絡認定的噪聲標籤數據，如果遺忘率設定較大，則會導致模型難以學習到原始數據集的分佈，導致預測性能較差，即很難對噪聲標籤率比較大的數據進行建模學習。而文章中，默認的遺忘率是0.2，相關最新文章也表明，在真實噪聲標籤數據集中，設定爲0.3比較合理

2 MixMatch: 一種全面的半監督學習方法 (NIPS 2019)

原文

代碼

2.1 動機

最近在訓練大型深度神經網絡方面取得的成功，在很大程度上要歸功於大型含標籤數據集的存在。然而，對於許多學習任務來說，收集有標記的數據是昂貴的，因爲它必然涉及到專家知識，例如醫療領域，需要相關專業醫生來對數據進行打標籤。

半監督學習已經被證明是利用無標記數據來減輕對大型標記數據集的依賴的一個強有力的範例。同時，半監督學習通過利用未標記數據，在很大程度上減輕了模型對標記數據的需求。

2.2 貢獻

本文通過採用數據增強對無標註數據進行標籤猜測，並結合MixUp混合有標籤和無標籤數據的策略，提出了一種新的半監督學習方法：MixMatch。

（1）多次數據增強，平均加Sharpen策略進行標籤猜測

具體原理公式如下：

（2）結合改進的MixUp策略，獲取經過數據增強和標籤猜測處理後的含標註的數據和含猜測標註的數據

最後，看一下MixMatch的整理算法流程和損失函數的設定：

損失函數：

2.3 實驗分析

本文在CIFAR10、CIFAR100、SVHN和STL-10四種數據集上進行了半監督實驗分析。其中含標籤的數據，從250-4000設定，其餘採用無標註數據來進行分析。

相關實驗結果表明本文的MixMatch算法能夠在含250組標註數據的情況下，取得baseline算法需要4000組甚至5000組標註數據的性能。具體實驗結果如下：

2.4 我的思考

本文算法中最重要的環節，是數據增強，而這一步驟限制了本文算法難以應用到一般的序列化數據集上，即非圖像數據一般難以在下游任務應用之前合理地利用數據增強來提高模型的性能。

然而，本文對含標註的數據採用交叉熵損失函數，對無標籤的數據採用均方誤差損失函數的思路，可以借鑑。另外，本文最大的一個亮點在於猜測標籤步驟中採用了Sharpen方法，而這一處理機制在本文的消融實驗表明是本文算法的核心組成之一，而另一核心組成則是MixUp機制。

因此，在於後續研究半監督學習時，可以嘗試採用MixUp和Sharen以及均方誤差損失函數的思路來對模型的性能進行嘗試性調節。

3 DivideMix: 採用半監督學習進行噪聲標籤學習 (ICLR 2020)

原文

代碼

3.1 動機

　　衆所周知，深度神經網絡的建模學習非常依賴標籤。在使用深度網絡進行學習時，爲了降低打標籤的成本，人們做出了大量的努力。兩個突出的方向包括使用帶噪標籤的學習和利用無標籤數據的半監督學習。

3.2 貢獻

在這項工作中，我們提出了DivideMix，一個利用半監督學習技術學習帶噪聲標籤的新框架。其中，DivideMix採用混合模型對單樣本損失分佈進行建模，動態地將訓練數據劃分爲乾淨樣本的有標籤數據集和噪聲樣本的無標籤數據集，並對有標籤數據和無標籤數據進行半監督訓練。爲了避免確認偏差，我們同時訓練了兩個不同的網絡，其中每個網絡使用從另一個網絡的數據集劃分（Ｃｏ－ｔｅａｃｈｉｎｇ思想）。在半監督訓練階段，我們改進了MixMatch策略，分別對已標註樣本和未標註樣本進行標籤共細化和標籤共猜測。

本文的樣本交互選取策略其實和２０１８年的ＮＩＰＳ的樣本Ｌｏｓｓ選擇策略很類似，一個是在訓練的Ｌｏｓｓ層面進行樣本選擇，一個是在網絡開始訓練時就選定好乾淨的含標籤數據，具體模型的算法僞碼如下：