【Active Learning - 10】圖像分類技術和主動學習方法概述

主動學習系列博文:

【Active Learning - 00】主動學習重要資源總結、分享(提供源碼的論文、一些AL相關的研究者):https://blog.csdn.net/Houchaoqun_XMU/article/details/85245714

【Active Learning - 01】深入學習“主動學習”:如何顯著地減少標註代價:https://blog.csdn.net/Houchaoqun_XMU/article/details/80146710

【Active Learning - 02】Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally:https://blog.csdn.net/Houchaoqun_XMU/article/details/78874834

【Active Learning - 03】Adaptive Active Learning for Image Classification:https://blog.csdn.net/Houchaoqun_XMU/article/details/89553144

【Active Learning - 04】Generative Adversarial Active Learning:https://blog.csdn.net/Houchaoqun_XMU/article/details/89631986

【Active Learning - 05】Adversarial Sampling for Active Learning:https://blog.csdn.net/Houchaoqun_XMU/article/details/89736607

【Active Learning - 06】面向圖像分類任務的主動學習系統(理論篇):https://blog.csdn.net/Houchaoqun_XMU/article/details/89717028

【Active Learning - 07】面向圖像分類任務的主動學習系統(實踐篇 - 展示):https://blog.csdn.net/Houchaoqun_XMU/article/details/89955561

【Active Learning - 08】主動學習(Active Learning)資料彙總與分享:https://blog.csdn.net/Houchaoqun_XMU/article/details/96210160

【Active Learning - 09】主動學習策略研究及其在圖像分類中的應用:研究背景與研究意義:https://blog.csdn.net/Houchaoqun_XMU/article/details/100177750

【Active Learning - 10】圖像分類技術和主動學習方法概述:https://blog.csdn.net/Houchaoqun_XMU/article/details/101126055

【Active Learning - 11】一種噪聲魯棒的半監督主動學習框架:https://blog.csdn.net/Houchaoqun_XMU/article/details/102417465

【Active Learning - 12】一種基於生成對抗網絡的二階段主動學習方法:https://blog.csdn.net/Houchaoqun_XMU/article/details/103093810

【Active Learning - 13】總結與展望 & 參考文獻的整理與分享(The End...):https://blog.csdn.net/Houchaoqun_XMU/article/details/103094113

 


2.1 導言

機器學習方法根據模型在訓練過程中是否使用標註樣本,可進一步細分爲監督學習和無監督學習等訓練方式。監督學習利用大量的高質量標註樣本訓練模型,在計算機視覺領域中取得了許多顯著的成績。近幾年,大量以監督學習爲訓練方式的機器學習算法不斷被提出並應用到不同的領域中,同時產生了對大量標註樣本的高度需求。因此,如何在保證不降低模型性能的情況下,顯著地減少標註成本是個亟待解決的挑戰,並逐漸引起了業界的廣泛關注。無監督學習旨在挖掘未標註樣本之間的內在聯繫,如 K-Means 聚類算法[54]。此外,半監督學習是介於監督學習和無監督學習的一種學習方式,基本思想是使用少量的標註樣本進行預訓練,並充分利用未標註樣本訓練模型,如自訓練算法[55]。主動學習方法和圖像分類技術都能夠以上述三種訓練方法應用到不同的需求中,本章將分別詳細地概述。
 

2.2 圖像分類技術

目前,主流的圖像分類技術可劃分爲基於傳統機器學習的方法以及基於深層網絡模型的深度學習方法。如圖2.1所示,傳統機器學習方法首先對預處理完後的數據進行特徵提取;緊接着,分類器基於提取後的特徵進行訓練。由於手工提取特徵(Hand-crafted)方法和分類器都是基於一定的理論基礎進行設計,因此具有較好的可解釋性。但是,傳統機器學習方法的效果過度依賴於特徵,而手工設計的特徵具有較大的侷限性且難於設計,因此仍無法勝任一些複雜的任務。深度學習算法通過深層的網絡結構將特徵提取任務和分類器以端到端的方式整合到同一個網絡中,並使用大量的標註樣本通過反向傳播機制不斷更新模型參數,從而同時提升模型的特徵提取和分類的能力。目前,深度學習方法在實際應用方面取得了很多突破性的成績,逐漸成爲了人工智能的重要工具。本節將圍繞傳統機器學習方法和深度學習方法對圖像分類技術展開介紹。值得一提的是,數據預處理對圖像分類任務同樣至關重要,由於不是本文的重點,因此不展開詳細地討論。

2.2.1 基於傳統機器學習的圖像分類技術

傳統的機器學習方法主要由兩個核心部分組成,即特徵提取和分類器。數據和特徵工程決定了機器學習相關模型的上限,並通過合適的算法不斷地逼近上限。本節將分別對當前部分主流的手工提取特徵方法和分類器展開介紹。手工提取特徵方法主要介紹局部二值模式(Local Binary Pattern, LBP) [56],方向梯度直方圖(Histogram of Oriented Gradient, HOG) [57]以及尺度不變特徵變換(Scale-Invariant Feature Transform, SIFT) [58]等。

(1)局部二值模式(Local Binary Pattern, LBP) : Ojala 等[56] 於 1994 年提出了 LBP 特徵,並將其用於提取局部紋理特徵。 LBP 的核心思想定義在一個像素大小爲 3x3 的鄰域中,將中心位置(2, 2)的像素值設置爲閾值;鄰域內的其餘 8個位置的值取決於各自的像素值,若像素值大於閾值則爲 1,否則爲 0;最終將得到一個 8 位數的二進制值(代表中心位置的 LBP 值),並且能夠反映該像素周圍的紋理信息。隨後,大量基於 LBP 的改進算法層出不窮。例如, Ojala 等[59] 嘗試將 3×3鄰域擴展到任意鄰域,使其能夠適應不同尺度的紋理特徵,具有灰度和旋轉不變性的特點。如圖2.2(a)和(b)分別表示原圖及其對應的 LBP 特徵示意圖。在實際應用中, LBP 及其改進方法常用於紋理分類,人臉識別[60]以及目標檢測[61]等領域。

(2)方向梯度直方圖(Histogram of Oriented Gradient, HOG) : Dalal等[57]認爲梯度或邊緣的方向密度分佈能夠較好的表達局部目標的表象和形狀,提出了 HOG 特徵並將其應用在靜態圖像行人檢測任務中。 HOG 特徵對圖像幾何的形變以及光學的形變都具有良好的不變性,常與 SVM 分類器結合並應用在圖像的行人檢測任務中。如圖2.2(c)展示了 HOG 特徵示意圖。

(3)尺度不變特徵變換(Scale-Invariant Feature Transform, SIFT) :Lowe 等[58] 於 1999 年提出了 SIFT 特徵,並於 2004 年進一步完善。 SIFT 特徵被廣泛應用於關鍵點檢測,具有旋轉、尺度、平移、視角和亮度不變性等特點。 SIFT特徵提取的核心步驟包括: 1)檢測尺度空間中的極值; 2)定位特徵點; 3)賦值特徵方向; 4)描述特徵點。如圖2.2(d)展示了 SIFT 特徵示意圖。

 

模型的學習能力關係到分類器在目標領域數據的擬合程度,比如,學習能力較弱的模型容易發生欠擬合情況。因此,在不同任務中,分類器的選擇也至關重要。下文將圍繞 K 鄰近算法(K-Nearest Neighbor, KNN) [62] 和支持向量機(SupportVector Machine, SVM) [63]等部分主流的分類器展開介紹。

(1) K 鄰近算法(K-Nearest Neighbor, KNN) : KNN 是一種常用的監督學習方法。其思想是基於某種合適的距離度量算法找出待測樣本與訓練集中最相近的 k 個樣本,並根據這 k 個樣本對待測樣本進行預測。例如,通過投票的方式對 k個訓練樣本進行統計,並將票數最多的類別作爲待測樣本的類別。此外, KNN 是“懶惰學習”(Lazy Learning)的著名代表,它不需要像其他的監督模型進行前向和反向訓練,即沒有顯式的訓練過程,訓練時間成本爲零。如圖2.3(a)所示,對於一組給定的訓練數據集(三角形和圓形表示不同的類別)並指定 k 值,分類的過程中需要找到與待分類樣本最相鄰的 k 個樣本,然後進行投票並統計,最後直接將票數最多的類別作爲待分類樣本的類別。值得注意的是,不同的 k 值可能得到不一樣的預測結果。例如:當 k 等於圖2.3(a)中的 k1 時,待分類樣本的類別爲圓形;當 k 等於 k2 時,則類別爲三角形。由於簡易性和有效性, KNN 及其改進方法常與主動學習方法結合應用到圖像識別和分類任務中[64,65]。

(2)支持向量機(Support Vector Machine, SVM) :基本的 SVM 是一種線性分類器,旨在從特徵空間中尋找出潛在的最優超平面 !Tx + b = 0,並以最大間隔將兩個類分開。其中, ! 表示法向量, b 表示超平面到原點之間的距離。式(2.1)表示樣本空間中任意樣本 x 到超平面之間的距離。

如圖2.3(b)所示,中間的實線表示所要尋找的最優超平面(Optimal Hyper Plane),超平面到兩條虛線的距離 margin 相等,虛線上的訓練樣本表示支持向量。此外,核函數通過將數據映射到高維空間,從而將 SVM 推廣到非線性分類問題。SVM 及其改進算法憑藉較好的分類性能,被廣泛應用到主動學習中[66,67]。

2.2.2 基於卷積神經網絡的圖像分類技術

Hubel 和 Wiesel 在 20 世紀 60 年代提出了卷積神經網絡(Convolutional Neural Networks, CNNs),在研究貓腦皮層中用於局部敏感和方向選擇的神經元時,發現其獨特的網絡結構可以有效地降低反饋神經網絡的複雜性。 CNNs 經過數十年的發展,性能及其實際應用價值發生了質的飛躍,特別是在圖像處理任務中取得了大量卓越的成果。值得一提的是, CNNs 在圖像處理領域中取得的效果,可以進一步總結爲如下原因: 1)挖掘一張圖像中潛在的模式(patterns)只需要讓模型觀察局部區域,不需要像全連接層與圖像中所有的像素點都相連; 2)同一種模式可能出現在同一張圖像中的不同區域,模型學習到的同一種模式可以應用到圖像的不同區域,能夠減少模型的參數量; 3)視覺對來自於圖像物體的理解中,下采樣處理對其影響很小,同樣能夠減少大量的參數量。目前主流的 CNNs 架構中,上述前兩點觀察主要體現在卷積層(下文將圍繞卷積的“權值共享機制”展開討論)。第三點觀察主要體現在 CNNs 網絡結構中的池化層,屬於一種特殊的卷積下采樣層。

CNNs 直接將圖像作爲模型的輸入,在一定程度上避免了圖像前期複雜的預處理,引起大量研究員的廣泛關注。 1994 年, LeCun 提出了 LeNet[68],並將其應用於銀行識別和分類手寫體字符。如圖2.4所示, LeNet 的誕生奠定了當代 CNNs 的基礎,但由於當時計算能力和數據量的限制, CNNs 又經歷了一次寒冬期。直到 2012 年,比 LeNet 更深層的 AlexNet[69] 模型以決定性的優勢取得 ImageNet 競賽的冠軍,證明了 CNNs 應用於複雜模型的有效性,確立了 CNNs 在計算機視覺中的地位。隨後,大量不同形式的改進模型層出不窮並應用於不同的領域。例如, ZFNet[70] 採用DeconvNet 和可視化(Visualization)技術監控學習過程; VGGNet[71] 採用大小爲3x3 的濾波器去取代大小爲 5x5 和 7x7 的濾波器從而降低計算複雜度; GoogleNet[72]推廣了 NIN(Network in Network) [73]的思路並定義 Inception 模塊,採用多尺度變換和不同尺寸(1x1, 3x3, 5x5)的濾波器構建網絡模型; Highway Networks[74]借鑑了 LSTM[75] 的 gaiting 單元; ResNet[76] 借鑑了 Highway Networks 的跳躍連接(Skip Connection)思想,通過訓練更深層的模型提升性能,並且計算複雜度變小;Inception-V3 和 V4 用 1x7 和 1x5 取代大濾波器 5x5 和 7x7, 1x1 濾波器做之前的特徵瓶頸,使得卷積操作變成像跨通道(Cross Channel)的相關操作; DenseNet[77]主要通過跨層鏈接緩解了梯度消失(Vanishing Gradient)問題。綜上所述, CNNs取得顯著成績的原因,除了計算能力的提升以及大數據等外界因素以外,網絡模型的設計同樣是重要因素之一。本節將結合 AlexNet 模型,重點圍繞卷積及其權值共享機制展開討論。

卷積及其權值共享機制:CNNs 的權值共享機制減少了大量的參數,爲處理更復雜的圖像和網絡模型帶來了可能性。如圖2.5(a)爲全連接層和卷積層的對比。在全連接層中,圖像的每個像素都與全連接層中的每個神經元通過權值連接。卷積層通過滑動窗口的形式提取圖像的局部特徵,每個卷積核都會關注一種圖像特徵,如邊緣、顏色和紋理等常見的圖像特徵。如圖2.5(b)展示了 Sobel 濾波器提取邊緣特徵的示意圖,原圖像經過與 3x3 的 Sobel 濾波器進行卷積操作後,得到了提取後的邊緣特徵。每個濾波器的權值通過卷積操作同時作用到圖像的所有像素上,所需參數量不隨圖像的尺寸改變,這就是權值共享機制的基本思想。舉例說明:假設需要處理一張像素爲 100x100 的圖像,與之連接的全連接層中有 100 個神經元,總共需要一百萬個參數。相較之下,使用一個 10x10 的卷積核也能夠表示邊緣等底層特徵並且僅需 100 個參數。我們可以通過增加捲積核的數量得到不同的特徵, 10 個10x10 的卷積核僅需 1000 個參數。由此可見,以卷積滑動窗口的連接形式相較於全連接方式能夠顯著地減少參數量。


 

基於 PyTorch 框架的 AlexNet 模型: Krizhevsky 在 2012 年使用 AlexNet 模型[69]贏得了 ImageNet 競賽的冠軍。 AlexNet 模型的網絡結構主要包括卷積層、池化層、激活函數、全連接層、 Dropout 層以及連接輸出層的 softmax 函數。當時Krizhevsky 在兩塊 GPU 上進行訓練,使用 ReLU 作爲激活函數緩解深層網絡帶來的梯度彌散問題,並利用數據增強技術和 LRN 層防止模型學習過程中的過擬合問題。本文第三章和第四章使用 PyTorch 框架提供的 AlexNet 模型[78],如圖2.6所示的網絡結構中,包括 5 個卷積層, 3 個最大池化層(MaxPooling)和 2 個全連接層。圖2.6將分佈在兩塊 GPU 上的結構整合到同一塊 GPU 上進行展示,與最原始的 AlexNet 示意圖有細微的區別。

CNNs 的設計過程中,通常需要將卷積層提取的圖像特徵與若干個全連接層相連,使其映射到一個固定大小的特徵向量。以本文使用的 AlexNet 模型爲例,表2.1展示了卷積核參數(例如, 64@11x11x3 表示有 64 組大小爲 11x11x3 的卷積核, 3爲通道數),移動步長及其移動方式,以及輸入圖像依次經過卷積操作和最大池化操作後輸出圖像的大小。

此外,式(2.2)給出了輸入圖像(InputSize)經過卷積層後對應輸出圖像大小(OutputSize)的計算方式。其中, KernelSize 表示卷積核的大小, Padding 表示步長的移動方式(0 表示不在原始圖像周圍添加像素點, 1、 2分別表示在所有通道周圍添加 1 或者 2 圈像素點), Stride 爲卷積核滑動窗口的移動步長(數值代表每次窗口滑動時跳躍的像素個數)。

2.3 主動學習方法

如圖2.7(a)所示,紅色實線表示理想情況下模型性能隨着訓練標註樣本數量的增多而無限地提升。然而,實際情況下往往是如圖2.7(b)的紅色實線所示,模型的性能不是隨着標註數據量的增多而無限地提升。此外,每個模型都會有與之對應的瓶頸性能(peak performance),研究者通過增加訓練數據以及調參使之不斷逼近瓶頸性能。主動學習關注的正是如何使用盡可能少的標註數據達到模型的瓶頸性能,從而減少不必要的標註成本。如圖2.7(b)的藍色虛線所示,主動學習根據合適的策略篩選出最具有價值的樣本優先標註並給模型訓練,從而以更少的標註樣本達到模型的瓶頸性能。

 

2.3.1 主動學習基本框架

隨着互聯網的普及和數據採集技術提升,使得很多領域能夠以廉價的成本獲取大量未標註數據。基於未標註樣本池的主動學習方法成爲目前最流行且應用最廣泛的場景。基本的主動學習方法主要由五個核心部分組成,包括: 1)未標註樣本池U(圖2.8中的第 1 部分), 2)篩選策略 Q(圖2.8中的第 2 部分), 3)相關領域的標註專家 S(圖2.8中的第 3 部分), 4)標註數據集 L(圖2.8中的第 4 部分), 5)目標模型 G(圖2.8中的第 5 部分)。主動學習方法將上述五個部分組合到一個框架中,並通過如圖2.8所示的順序,以不斷迭代的訓練方式更新模型性能、未標註樣本池以及標註數據集,直到目標模型達到預設的性能或者不再提供標註數據爲止。本節將圍繞主動學習的基本框架展開討論。

在實際應用中,首先需要根據特定領域的數據採集方法收集到大量的未標註樣本,經過數據清洗後組成未標註樣本池 U。一般情況下,爲了驗證模型的性能,將劃分部分數據集作爲模型的驗證集和測試集,剩餘的樣本作爲訓練集。因此,首先,可以通過隨機抽樣法從未標註樣本池 U 中選擇部分樣本給相關領域的專家 S 進行標註,並將其作爲模型的驗證集和測試集。然後,選擇合適的模型作爲分類器 G,例如基於傳統機器學習算法的 SVM 或者基於深度學習方法的 AlexNet 模型。緊接着,根據具體應用場景選擇合適的策略 Q(例如,不確定性策略)作爲篩選樣本的依據,從而產生一批待標註樣本集 X 並交給相關領域的專家進行標註。值得注意的是,標註者在主動學習環節中至關重要,應該儘量保證提供準確性較高的樣本標籤。但是,一個魯棒的主動學習算法需要考慮標註過程中不可避免的意外因素,比如產生少量的錯誤標籤等因素,因此設計算法的時候也應考慮到模型的抗噪能力。最後,待標註樣本集 X 將以增量式的方式加入標註數據集 L 中並提供給模型 G 進行訓練,同時根據未被選中的樣本更新未標註樣本集合 U。至此,完成了主動學習的一次迭代過程,模型 G 將通過新增的標註樣本不斷提升性能,標註數據集 L 也將不斷增加,未標註樣本數據集 U 將不斷減少。通過反覆執行上述的迭代過程,直到滿足預期設定的條件,比如模型達到預定的準確率或者標註成本達到上限等條件。算法2-1給出了基於未標註樣本池的主動學習方法的基本框架。

 

2.3.2 主動學習基本策略

樣本的篩選策略直接關係到模型能夠節約標註成本的程度。例如,使用不確定性策略比隨機採樣策略能夠節約更多的標註樣本[4,5]。因爲隨機採樣策略既沒有利用到模型的預測信息,也沒有利用到大量未標註樣本池的結構信息,僅憑隨機採樣決定優先標註的樣本。而不確定性策略通過與模型的預測信息進行交互,優先篩選出相對當前模型最有價值的樣本。本節將圍繞部分經典的篩選策略展開討論。

(1)隨機採樣策略(Random Sampling, RS) : RS 不需要跟模型的預測結果做任何交互,直接通過隨機數從未標註樣本池篩選出一批樣本給專家標註,常作爲主動學習算法中最基礎的對比實驗。

(2)不確定性策略(Uncertainty Strategy, US) : US 假設最靠近分類超平面的樣本相對分類器具有較豐富的信息量,根據當前模型對樣本的預測值篩選出最不確定的樣本。 US 包含了一些基礎的衡量指標: 1)最不確定指標(LeastConfdence, LC)將預測概率的最大值的相反數作爲樣本的不確定性分數。 2)邊緣採樣(Margin Sampling, MS)認爲距離分類超平面越近的樣本具有越高的不確定性,常與 SVM 結合並用於解決二分類任務,但在多分類任務上的表現不佳。3)多類別不確定採樣(Multi-Class Level Uncertainty, MCLU)是 MS 在多分類問題上的擴展, MCLU 選擇離分類界面最遠的兩個樣本,並將它們的距離差值作爲評判標準。 MCLU 能夠在混合類別區域中篩選出最不確信度的樣本,如式(2.3)所示。其中, x j 表示被選中的樣本, C 表示樣本 xi 所屬的類別集合, c+ 表示最大預測概率對應的類別, f (xi; c) 表示樣本 xi 到分類超平面的距離。 4)熵值最大化(Maximize Entropy, ME)優先篩選具有更大熵值的樣本,熵值可以通過計算 EntropyS core = - ∑Ci=1 pi × log(pi) 得到,其中 pi 表示第 i 個類別的預測值。 5)樣本最優次優類別(Best vs Second Best, BvSB) [79]主要是針對多分類問題的一種衡量指標,並且能夠緩解 ME 在多分類問題上效果不佳的情況。 BvSB 只考慮樣本預測值最大的兩個類別,忽略了其他預測類別的影響,從而在多分類問題上的效果更佳。

(3)委員會投票(Query by Committee, QBC) : QBC[31]是一種基於版本空間縮減的採樣策略,核心思想是優先選擇能夠最大程度縮減版本空間的未標記樣本。 QBC 包括兩個基本步驟: 1)使用多個模型構成委員會; 2)委員會中所有的模型依次對未標註樣本進行預測並優先篩選出投票最不一致的樣本進行標註。由於QBC 在實際應用的過程中需要訓練若干個模型,導致具有較高的計算複雜度。基於此,熵值裝袋算法(Entropy Query-By-Bagging, EQB) [80]和自適應不一致最大化(Adaptive Maximize Disagree, AMD)被提出並緩解了計算複雜度問題。其中,EQB 同時引入了 bagging 繼承方法以及 bootstrap 採樣; AMD 主要針對高維數據,將特徵空間劃分爲一定數量的子集並構造委員會。

(4)部分其他經典的策略:梯度長度期望(Expected Gradient Length, EGL)策略根據未標註樣本對當前模型的影響程度優先篩選出對模型影響最大的樣本;EGL[4]是代表性方法之一,能夠應用在任意基於梯度下降方法的模型中。方差最小(Variance Reduction, VR)策略通過減少輸出方差能夠降低模型的泛化誤差[81,82];Ji 等[82]提出了一種基於圖的 VR 衡量指標的主動學習方法,通過將所有未標註樣本構建在同一個圖中,每個樣本分佈在圖中每個結點上。緊接着,通過調和高斯隨機場分類器直接預測未標註樣本所屬的標籤;在優化的過程中,通過挑選一組未標註樣本進行預測並獲得對應的預測類別,使得未標註樣本的預測類別方差最小。

 

2.3.3 主動學習的擴展方法

近年來,主動學習策略在很多實際應用場景中取得顯著的效果。但同時也存在一些亟需解決的挑戰。例如,不確定性策略只關注樣本的不確定性,在 BMAL 場景下會產生大量具有冗餘信息的樣本。因此,僅使用單一的策略尚未能最大程度地節約標註成本。本節將圍繞本文的核心工作簡要地介紹幾種主動學習的擴展方法。

(1)組合多種基本策略的主動學習方法:組合策略將多個基本策略以互補的方式進行融合,廣泛應用於圖像分類任務中[36,37,38,83]。其中, Li 等[36]基於概率分類模型提出一種自適應的組合策略框架。 Li 等[36]通過信息密度指標(Information DensityMeasure)將未標註樣本的信息考慮在內,彌補了不確定性策略的不足。如算法2-2所示,該框架能夠擴展到更多的組合策略,本文第三章借鑑了組合策略的思想。

(2)結合半監督學習(Semi-Supervised Learning)的主動學習方法:自訓練(Self-training)算法作爲半監督學習的一種基礎方法,其核心步驟如算法 2-3所示。

由於自訓練算法在訓練過程中會根據模型的預測信息,挑選合適的樣本及其對應的預測標籤加入訓練集,而且初始化少量的標註樣本能夠保證模型的初始性能,因此初始化訓練環節對其後續的學習過程至關重要。半監督學習算法需要解決的挑戰之一是:在訓練的過程中容易引入大量的噪聲樣本,導致模型學習不到正確的信息。部分研究員們通過構建多個分類器的協同訓練算法緩解噪聲樣本,如Co-Training[84] 和 Tri-Training[85]。本文在第三章從另一種思路入手,提出了一個噪聲魯棒的半監督主動學習框架,分別從減少噪聲樣本數量以及自動調整噪聲樣本等角度進行了充分地考慮,並將其與主動學習算法結合。此外,半監督學習方法與主動學習方法結合的相關工作已介紹於第一章,此處不再贅述。

(3)結合生成對抗網絡的主動學習方法:生成對抗網絡(Generative Adversarial Networks, GAN)模型以無監督的訓練方式對大量未標註樣本進行訓練,並通過生成器產生新的樣本。經典的 GAN[15] 主要包括生成器和判別器等兩個核心部分,兩者以互相博弈的方式進行對抗訓練,直到兩者達到一個動態均衡的狀態。 GAN 的目標函數如式(2.4)所示,其中, V (G; D) = Ex∼Pdata [logD (x)] + Ex∼PG [log (1 - D (x))] 表示數據真實分佈 x ∼ Pdata 與生成模型得到的分佈 x ∼ PG 之間的差異。文獻[19,50]將生成器和主動學習策略進行融合並構建目標函數,通過解決優化問題控制生成器產生的樣本。本文第四章將重點介紹上述兩種方法及其對應的目標函數,並在此基礎上提出一個基於生成對抗網絡的二階段主動學習方法。

2.3.4 主動學習方法的基本評價指標

本文使用的評價指標:本文側重研究主動學習方法在保證不損失模型準確率的情況下,節約標註成本的性能,評價指標如式(2.5)所示。其中, S avedRate 表示主動學習方法相對於全樣本訓練減少的標註成本; ExpertAnnotated 表示當模型達到預定的目標性能時專家標註的樣本數量; FullS amples 表示當前數據集提供的未標註樣本數量,即全樣本訓練時所使用的標註樣本數量。本文的第三章將對上述五組數據集進行全樣本訓練,並分別記錄最佳驗證集準確率作爲主動學習相關算法的目標準確率。例如,在某組數據集中使用 AlexNet 模型對 FullS amples 張標註圖像進行訓練,記錄訓練過程中最佳的驗證準確率(best accuracy)並將其作爲主動學習的目標準確率(target accuracy);隨後,模型通過迭代過程不斷提升性能,當達到目標準確率時,記錄專家所標註的樣本數量 ExpertAnnotated;此時,就可以算出SavedRate 的值,即該方法能夠節約多少標註成本。此外,我們也會將主動學習方法與一些常見的方法進行比較,比如 RS 策略常用於基準對比實驗(baseline)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章