【Active Learning - 03】Adaptive Active Learning for Image Classification

【2013-CVPR】Adaptive Active Learning for Image Classification

閱讀時間:

  • 20181023:摘要

  • 20181024:Related Work

  • 20181025:Uncertainty Measure、Information Density Measure、A Combination Framework

  • 20181026:all of the left…

衍生的參考資料:

一些需要進一步理解的關鍵字:

  • prior density

  • information density

  • dense region

  • sparse region

  • mutual information:is a quantity that measures the mutual dependence of two sets of variables

  • representativeness measure.

  • Gaussian Process Framework:A Gaussian Process is a joint distribution over a (possibly infinite) set of random variables, such that the marginal distribution over any finite subset of variables is multivariate Gaussian.

  • symmetric positive definite Kernel function:對稱正定的核函數


論文(2013 - CVPR):

【2013-CVPR】Adaptive Active Learning for Image Classification.pdf

摘要:

近期,主動學習在計算機視覺領域引起廣泛的關注。因爲主動學習旨在減少時間和花費成本,在此基礎上爲視覺數據分析提供高質量的標註樣本。計算機視覺領域現有的大多數主動學習方法都是應用 Uncertainty 作爲樣本的篩選策略。雖然 Uncertainty 策略在很多場景下取得了有效的成果,但在"存在大量未標註樣本"場景下,效果往往不佳(傾向於離羣點)。本研究中,作者嘗試提出一種新穎的自適應的主動學習方法,將“information density”和“most uncertainty”等兩種策略進行組合,進而篩選出 critical instances 給專家標註,最後對分類模型進行訓練。本研究的實驗部分包括計算機視覺領域中2個基礎的任務:1)object recognition、2)scene recognition,驗證本文提出方法的有效性。

閱讀感想(hcq):

what the fk:主動學習相關的論文在2013年就登上 CVPR 了,提出了“information density + most uncertainty”的樣本篩選策略。後續要仔細研究研究這篇論文的各種細節!【20181023 - 16:08:25】**


Introduction:摘要

圖像分類在計算機視覺研究中是一個留存已久的問題,並且遺留了一個的主要挑戰:由於“形狀、顏色、尺寸、環境”等因素造成圖像之間廣泛的類間多樣性。爲了構建一個魯棒的圖像分類器,往往需要大量的標註樣本進行訓練。例如,文獻[33]將10000個手寫體數字的樣本用於訓練分類器。準備大量的標註樣本需要巨大的時間和金錢開銷。另一方面,在人類視覺系統中存在一個令人着迷的特徵:我們僅僅使用少量的標註訓練樣本就能夠達到較好的分類效果(意思是說,人類的視覺系統非常強大,你要對一些物體進行分類,只需要少部分標註樣本進行學習即可)。那麼,計算機通過可靠的機器學習算法是否也能夠達到這種效果?這就是本研究的動機。作者旨在開發一種有效的主動學習方法,在有限的少數標註樣本的情況下,訓練一個較好的分類器。
在機器學習研究中,如何儘可能的減少樣本標註代價並且訓練一個較好的分類器是一項關鍵的挑戰(critical challenge)。在很多情況下,隨機選擇未標註樣本給專家標註往往比較低效,因爲一些不具有信息量的樣本以及一些冗餘的樣本很有可能被選中(浪費標註代價,因爲這些樣本基本上無法提高模型的性能,甚至有可能降低模型的性能)。主動學習方法被用於控制標註的過程,主要目的就是減少樣本的標註代價。近期,主動學習在計算機視覺引起廣泛的關注[3, 14, 13, 15, 16],特別是基於未標註樣本池的場景(pool-based setting)。然而,這些研究僅僅通過最不確定性指標(most uncertainty measures)計算樣本的信息量。他們認爲樣本具有更高的不確定性就更應該優先被篩選出來標註。儘管通過最不確定性指標篩選最有信息的樣本在很多場景下取得了有效的成果,但是他們僅僅是根據當前分類模型獲取樣本間的關係**(the relationship of the candidate instance;疑問:是樣本之間的關係嗎?不只是計算每個樣本的不確定性嗎?),而忽略了未標註樣本之間的數據分佈信息(引入半監督學習,是不是就可以利用未標註樣本之間的信息?)。
僅僅利用最不確定性指標可能導致篩選出一些沒用的樣本。例如,未標註樣本之間存在某些離羣樣本,這些樣本對當前分類器而言不確定性往往很高(很容易被優先選擇給專家標註),然而離羣樣本不僅對提升分類器性能沒有幫助,反而可能降低性能。因此,在開發一個主動選擇策略時,除了考慮基於分類器的最不確定性指標以外,也應該考慮其他有可能影響的指標。
本研究中,作者提出一種新穎的自適應主動選擇策略,在樣本選擇時,同時利用了標註樣本和未標註樣本等信息。作者提出的篩選指標是一種自適應的組合方法,包括兩種形式:1)基於當前分類器的最不確定性指標;2)一種信息密度形式,能夠衡量候選樣本和未標註樣本之間的相互信息
(感覺這就是文本的重點了:and
an information density term that measures the mutual information between the candidate instance and the remaining
unlabeled instances)**。作者通過設置權重的方式對這兩種形式進行組合,並通過選擇權重參數去最小化分類器在未標註樣本之間的分類誤差,從而達到一種自適應的權重調整。作者在一些圖像分類數據集上進行實驗,驗證了本研究提出方法的有效性。


Related Work:相關工作

大量關於主動學習技術的被髮表在各種文獻中。大多數文獻都是聚焦於研究如何在每次篩選出一個最具有信息量的未標註樣本。大多數研究是基於較短淺的決策,僅僅基於當前狀態的分類器使用最不確定性指標原則去篩選出最優先被標註的未標註樣本。文獻[16, 26]中,通過計算信息熵(entropy)表示最不確定的樣本(the most uncertain instance is taken as the one that has the largest entropy on the conditional distribution over its labels)。SVM 選擇離支持向量最近的樣本的作爲最不確定的樣本[2, 25, 28]。基於委員會的篩選算法(Query-by-committee)通過訓練一組分類器委員,然後以委員投票的方式決定篩選哪個樣本作爲最不確定的樣本。
上述主動學習策略存在一個較明顯的不足:他們僅僅基於當前分類器決定哪個樣本是最不確定的,卻忽略了大量未標註樣本之間的信息。如上文分析的那樣,上述的選擇策略更傾向於(prone to)選擇離羣樣本(如果這組數據存在很多離羣樣本的話,那麼訓練得到的分類器性能肯定會大大降低)。然而,主動學習的目標是產生一個具有泛化能力且分類精度較高的分類器,能夠適用於目標領域中未經過模型訓練的樣本(unseen instance in the problem domain)。雖然不能直接得到domain的分佈,但是能夠通過大量未標註樣本池獲得相關的信息。
**已提出很多主動學習方法利用標註樣本的信息去最小化分類器的泛化誤差(minimize the generalization error)。在文獻[24]中,根據樣本的後驗估計通過最大化未標註樣本之間期望誤差(expected error reduction),從而直接最小化分類器的泛化誤差(有點不知道在講啥,應該是文獻24期望篩選的樣本是那些能夠最大化未標註樣本的expected error reduction,從而達到最小化分類器的泛化誤差,具體細節還得看原論文)。還有一類主動學習算法通過減少模型的方差間接的減少分類器的泛化誤差,包括基於統計方法的文獻[4];此外,文獻[35]也是類似的方法,基於 Fisher 信息篩選最優樣本。以上關於減少泛化誤差(generalization error minimization)**的方法都有一個共同的問題:計算代價昂貴。
**另一類主動學習方法使用大量的啓發式指標去利用未標註樣本的信息。**文獻[19, 32]通過使用未標註樣本的先驗密度(prior density)p(x)作爲不確定性指標的權重,從而達到利用未標註樣本的目的。文獻[26]提出一種相似的框架,使用cosine distance衡量信息密度(information density)。文獻[6, 20]將聚類方法和主動學習方法進行結合,進而同時利用了標註樣本和未標註樣本的信息。在文獻[10 ,17]中,優先選擇的樣本是爲了最大化“基於Gaussian Process models被選中的樣本和剩下的未被選中的樣本”之間的信息增量。文獻[23]通過利用未標註樣本信息改進了 query-by-committee 方法。文獻[11]嘗試去篩選的最優樣本使得選中的樣本和剩下的未標註樣本之間的相關信息最大化,含蓄地利用了未標註樣本之間的聚類信息(這段翻譯起來有點不不知道在講啥,哈哈,後續有時間去看看原論文)。
在計算機視覺領域中,研究者將主動學習應用到圖像/視頻標註[16, 34, 31],圖像/視頻檢索[29, 12]和識別[30, 15, 13, 22, 14]。文獻[29]將主動學習應用到目標檢測中,旨在處理大量的在線爬蟲圖像。文獻[14]將基於間隔(margin-based)的不確定性指標推廣到多類案例中。文獻[22]提出一種2維空間上的主動學習方法,篩選出一對樣本而不僅僅是一個樣本(不是很理解,值得好好看看)。文獻[13]介紹一種基於變形KNN(a probabilistic variant of a KNN method)的主動學習方法。文獻[15]在二分類問題上使用 Gaussian Process 作爲概率預測模型去直接獲取樣本的不確定估計值。
雖然有很多不同的預測模型應用到這些方法中,但他們在篩選樣本時都是使用簡單的不確定性指標的主動選擇策略。因此,這些方法都存在一個共同缺陷:忽略了大量未標註樣本之間的分佈信息。在本研究中,作者針對圖像分類任務提出一種新的主動學習方法,解決了不確定性指標的內在限制(overcomes the inherent limitation of uncertainty sampling)


Proposed Approach:本研究提出的方法

根據當前給定分類器進行鑑定哪個樣本最應優先被篩選時,不同主動學習策略有不同的優勢。本節中,作者展示一種新穎的主動學習方法,以自適應的方式結合了不同選擇策略的優勢。主要包括如下3個關鍵部分:1)一種不確定性指標;2)一種信息密度的衡量;3)一種自適應的組合框架。作者將逐一介紹這3個關鍵部分。此外,作者提出的方法是基於概率分類模型(在本研究的實驗中使用邏輯迴歸模型)。
一些符號的說明:

Uncertainty Measure

Uncertainty Sampling 是最簡單、最常用的一種主動學習策略,旨在選擇最不確定的樣本給專家標註。對於概率分類模型,Uncertainty Measure 被定義爲樣本類別Y的條件熵(conditional entropy):給定一個樣本x,對應類別 Y 的條件熵如下:

(emmm,這部分不是重點,而且有點重複,直接貼圖了)

Information Density Measure

爲了解決 uncertainty sampling 策略的缺陷,作者在篩選樣本的時候也考慮了未標註樣本的信息。本研究的動機是找到最富有信息的樣本構成模型輸入的分佈,從而提升目標分類器的泛化性能。雖然輸入的分佈(input distribution)通常是未給定,但我們可以通過大量的未標註樣本逼近輸入空間(input space)。文獻[5, 27]在半監督學習的相關工作中已經證明了未標註樣本的分佈對訓練一個較好的分類器非常有幫助。(Intuitively)顯然,我們更傾向於選擇那些坐落於密集區域的未標註樣本,因爲這些樣本比坐落於稀疏區域的樣本更具有信息量(意思是說,可以通過密集/稀疏性去表示樣本所具有的信息量)。因此,作者使用 information density 形式去表示剩下的未標註樣本的信息量。值得注意的是,作者在本研究中通過 Gaussian Process framework 將“信息密度程度(information density measure)”定義爲候選樣本和剩下的未標註樣本之間的相互信息。(感覺這句話很重要,但翻譯得不夠,原話:Specifically, in this work, we define the information density measure as the mutual information between the candidate instance and the remaining unlabeled instances within a Gaussian Process framework.)
Mutual information 是一個衡量兩組變量之間的相互依賴性的值,比文獻[19, 32, 27]中使用的 marginal density p(x) 更直觀的代表性指標,同樣也比文獻[26]使用的 cosine distance 更 principled representativeness measure。作者將基於信息密度指標(information density measure) 的相互信息量(multual information)定義爲:


作者使用 Gaussian Process Framework 去計算公式(3)中的信息熵(entropy terms)。Gaussian Process 表示在一組(可能無窮大)隨機變量的聯合分佈,因此。在本研究的問題中,作者將每個樣本和一組隨機變量聯繫起來(we associate a random variable X (x) with each instance x)。然後,使用一個對稱正定核函數 K(·, ·) 去生成一個協方差矩陣,因此σ = K(xi, xi),



(協方差矩陣其實就是一個定義在所有未標註樣本上的核矩陣。一個較通用的核函數是高斯核)
根據多元高斯分佈(multivariate Gaussian distribution)的性質,

A Combination Framework

分別定義好“uncertainty measure”和“information density”等兩個衡量指標之後,作者的下一個目標是將兩者的優勢進行結合。最主要的想法就是篩選的樣本既要滿足“基於當前分類器是最不確定的”,又要滿足“相對剩下的未標註樣本是非常富有信息量的(very informative)”。因此,將這些樣本給分類器進行訓練後,相對其他未被篩選的未標註樣本更能夠提升預測精度。作者將上述的組合方式寫成如下通用形式**(20181026-09:56,感覺公式(9)的值,越大表示該樣本具有越多的信息量,more informative)

其中,0<=β<=1 是兩種衡量指標的權衡控制參數。如公式(9)所示,儘管f(x)是一種判別性的指標,而信息密度指標d(xi)1-β是根據輸入空間進行計算,並且跟目標判別分類器模型沒有直接的聯繫。使用類似這種啓發式組合指標,作者最主要的目的是篩選出最具有信息量的樣本去減少分類器模型的泛化誤差,而且不用花費昂貴的計算代價(steps of retraining classification model for each candidate instance)。
這部分主要介紹了作者提出的組合框架中,唯一需要較大計算量的部分是“計算矩陣的逆”。作者巧妙的引入文獻[36]的方法緩解了計算量)上述的組合方式中,唯一需要較昂貴計算量的操作是計算計算公式(5)中的條件協方差(conditional covariance,σ)時,計算矩陣(Σ)的逆。對每個候選樣本i∈U都計算一個矩陣的逆是非常低效的。作者採用了文獻[36]中的一種快速算法,通過移除行/列去計算矩陣的逆(compute the inverse matrix with one row/column removed),從而緩解了計算的問題:對於任一候選樣本i∈U,我們可以通過給定的Σ 和 Σ 直接計算矩陣的逆(Σ ),詳情請參考文獻[36]。因此,我們只需要在主動學習過程的開始階段做一個矩陣求逆的操作即可。此外,還有一個能夠爲處理大量未標註樣本較少計算代價的方法是使用二次抽樣(subsampling)。換句話說,在主動學習的每次迭代過程中,首先可以對所有未標註樣本進行隨機採樣產生一個子集,然後限制只能從這個子集中篩選候選樣本。(是個值得借鑑的方法)
文獻[26]已經提出了一種跟本研究的式(9)相似的組合策略,形如 [f(x)d(x)]。然而,文獻[26]使用候選樣本和所有未標註樣本之間的平均 cosine 距離作爲 information density measure。此外,文獻[26]中的參數β式預訓練的權重(應該是想說,它是個預訓練好的定值)。作者將在下文介紹,在主動學習的每一輪迭代中,從一個事先定義好的範圍中,自適應選擇最優參數β。
(閱讀感想:作者提出的組合策略其實並不是憑空而出的,也是參考了文獻[26]提出的組合策略,形式大同小異。較大的亮點就是將組合權重β改裝成自適應的方式。)**

Adaptive Combination

關於作者在上文提到的組合策略中,一個重要的問題就是選擇一個合適的權重參數β(0<=β<=1)。β的值控制着兩種衡量指標的重要程度(也就是本次主動學習迭代中,更側重於應用哪個指標進行篩選樣本)。當β>0.5時,uncertainty measure 被視爲比 information density 更加重要,因爲相對更大的權重置於 uncertainty measure 上。舉個極端的例子,當 β=1 時,此時的組合策略就僅僅使用了 uncertainty measure。同樣地,當 β < 0.5 時,更大的權重被置於 information density 上。然而,對於每個不同的數據集,很難去事先定義好這兩種評價指標的重要程度(就是說,對於不同的數據集,β對應不同的最優解)。此外,根據主動學習過程的每個階段以及不同的迭代,可以通過動態地修改β值進而找到權衡兩種不同指標重要程度的最優解。爲了在每次迭代中儘可能選擇最佳樣本,我們需要動態地評估兩種評價指標的相對信息量,從而決定每次迭代篩選時 β 的值。不幸的是,這是一個非常難搞定的問題。(難題出現了,或許下文是個亮點)
在本研究中,作者提出了選擇一個簡單且非短視的步驟(a simple nonmyopic step)去自適應地從一組事先定義好的候選值中選擇一個合適值作爲β。更加明確來講,在主動學習的每次迭代中,作者首先分別對每個候選樣本 xi 計算 uncertainty measure f(x) 以及 information density measure d(x)。然後,作者依次從事先定義好的集合B中選出一個值作爲β值,每個β值應用到對應不同的樣本中(此時,有 b = length(B) 個樣本,分別一個 β 值)。例如,事先給定集合 B = [0.1, 0.2, … , 0.9, 1.0],此時就可以選擇b=10個樣本,每個樣本對應集合B中的一個值,即beat值。然後,根據公式(9)對每個樣本(此時,每個樣本都對應一個β值)進行計算,篩選出最優的β值就相當於從b個樣本中篩選出最具有信息量的樣本。作者提出一種β的選擇方式,通過在未標註的候選樣本中最小化期望分類誤差。對於來自候選樣本集合S中的每一個候選樣本x,作者使用P(y|x, θ) 方式得到樣本x的標籤概率值(理解:基於當前模型θL,給定樣本x,就可以計算得到對應的概率值y,並作爲樣本的標籤)。按照這種方式依次計算候選樣本集合S中的每個候選樣本,得到對應的“樣本-標籤 = ”小隊,然後將這些帶有標籤的樣本加入訓練數據集中,重新訓練(retrian)分類器模型。we can measure the prediction loss of the new classifier on all unlabeled instances(這是原論文的描述,字面意思是說,通過得到的新的分類器就可以在所有未標註樣本中得到預測損失。這裏的“all unlabeled instances”僅僅是指候選樣本,還是 unlabeled pool 中的所有未標註樣本,如是pool中的未標註樣本,那這些沒有標籤的樣本怎麼得到 prediction loss?可以計算得到 prediction value,但是沒有標籤怎麼計算loss?【20181026-12:22】讀完全文後再來思考這個問題:這裏指的是候選樣本集合,並不是所有的未標註樣本,可以參考論文中的算法1)The expected loss of the candidate instance x can be computed as a weighted sum of the prediction loss obtained using all possible labels y under the distribution P (y|x, θ). Specifically, we conduct instance selection from the set S using the following equation:


其中,θ表示原來的訓練數據集中加入新的標註樣本<x,y>,經過重新訓練後得到新的模型參數。(理解:首先,每次加入一個新的標註樣本後,重新訓練模型得到新的分類器;然後基於新的分類器,對每個未標註樣本進行前向計算,得到預測概率值)
上述介紹的主動學習算法如下算法1所示。雖然分類器重新訓練需要計算分類器的期望誤差,但這個過程僅僅需要對非常少量的事先選擇好的候選樣本集S。計算代價能夠控制在合理的範圍內。


(-- start
Emmm,原文中沒有對給出的算法1流程做解釋。基於對論文的精讀,理解如下:
算法1中用到的相關公式:
(1)uncertainty measure

(2)information density

(9)組合:uncertainty measure + information density

(10)求解最優樣本:


輸入:訓練樣本集L(標註樣本集),未標註樣本集U,事先定義好的集合B = [0.1, 0.2, … , 1](β的候選值)
重複如下步驟,直到滿足足夠的樣本量:

  1. 基於現有的標註樣本集L,訓練一個概率分類器;

  2. for 循環,i ∈ U:

  3. 使用公式(1)計算 f(x)

  4. 使用公式(2)計算d(x)

  5. 使用公式(9),對於不同的β∈B,計算h(x)

  6. 令候選樣本集合 S = 空集

  7. for 循環,β ∈ B:

  8. 選出一個樣本x,使其最大化:x = arg maxh(x)

  9. 將樣本 x 加入候選集合 S 中:S = S ∪ x

  10. 使用公式(10)從候選集合S中篩選出最佳樣本x*

  11. 將x*從未標註樣本集從去除

  12. 專家標註:得到x對應的真實標籤y,並將標註樣本<x*, y*>加入訓練集L中。

– end…)


Experimental Results:實驗結果

作者在3組分類數據集上驗證了本研究提出方法的有效性,包括1組場景識別的數據集(13 Natural Scene Categories dataset [8],a superset of MIT Urban and Natural Scene dataset [21]),2組目標識別的數據集

實驗設置 - 數據集:

  • 場景分類數據集(總共 3859 張圖像)- 13 Natural Scene Categories dataset:自然場景(coast, forest, mountain, etc.)、人造場景(kitchen, tall building, street, etc.)。

  • 目標識別(8677 張圖像):

    • **Caltech-101:**包括背景有102個類別。本研究並不是使用全部的數據集,而是從每個類別中隨機取30張圖像作爲本實驗的數據集(總共102*30=3060張圖像,稱之爲 Caltech101數據集)

    • **Pascal VOC 2007 datasets:**總共5011張圖像(訓練集+驗證集)。因爲本研究中沒有涉及到多類標問題,因此只選擇其中的單類標樣本,因此最終只有2989張圖像,20個物體類別。

實驗設置 - 對比實驗:

  • 隨機篩選:Random Sampling

  • 最不確定性指標:Most Uncertainty

  • Near Optimal [10]

  • Fixed Combination [26]:cos distance 衡量 information density,使用參數 beta 進行組合 [f(x)d(x)β]

實驗中的分類器模型:在上述所有對比實驗中使用邏輯迴歸作爲分類器模型,最終使用概率值表示分類的結果。

實驗1:場景識別(Scene Recongnition)

首先,作者分析(conducted)了使用 GIST[21] 特徵的 13 Natural Scene dataset。作者隨機從整個數據集中選擇了5個類別的2組子集,10個類別的3組子集。對於每一組子集,樣本按照2%、68%、30%等比例分別被隨機分配到標註樣本集合中(訓練集)、未標註樣本集、測試集。每個主動學習算法先使用已有的2%訓練集對模型進行訓練,然後在每次迭代中依次根據不同的策略從未標註樣本集中篩選最佳樣本給專家標註(作者設置了最大迭代次數爲100)。在本研究中,每次迭代都會產生一個帶有真實標籤的標註樣本加入訓練集,然後使用邏輯迴歸分類器在訓練集中重新訓練、在測試集中進行驗證,並記錄分類器的精度。
本次實驗重複進行了10次並取平均值,如圖下圖1所示(座標圖展示的是30%的測試數據):

  • (a) 本研究提出的自適應選擇策略在少數幾輪迭代中,分類器就取得了較好的性能。而且,每次迭代得到的分類器性能都比其他4種對比實驗的效果更好。從而證明了本研究提出的選擇策略幫助模型篩選出更有代表性的樣本。其中,β ∈ {0.25, 0.5, 0.75, 1}。

  • (b) 本研究提出的選擇策略的優勢更加突出,與實驗(a)的不同之處在於:

  • ©(d)(e) 是在3組10分類的子集上做實驗。本文提出的自適應組合的選擇策略相對其他對比方法仍是最優,表明了該策略能夠適用於不同的多分類(5分類、10分類)的任務。

  • (f) 實驗還嘗試了在給定不同β候選集合的情況:如,β ∈ {0.25, 0.5, 0.75, 1} 的10分類任務上,仍是本文提出的方法取得最優解。表明了β取值的有效性和重要性。

實驗2:目標試別(Object Recognition)

這部分的實驗數據集包括:1)Pascal VOC 2007;2)Caletch101。作者使用了分別爲兩個數據集預先計算好的密度SIFT特徵(precomputed dense SIFT features)。
Caletch101數據集中,作者製作了3個5分類的子集、2個10分類的子集,當然也是採用隨機的放置方式。在如下子集的實驗中,不同方法在不同的場景中有不同的優勢,但仍是本研究提出的自適應組合策略取得最佳效果。

  • 圖2(a)(b)© 在3個5分類的子集上重複進行10次實驗並取平均值,分別跟其他4個對比實驗進行比較。

  • 圖2(d)(e) 在2個10分類的子集上使用相同的方式進行實驗。

  • 圖2(f) 將自適應組合策略與非自適應性組合版本進行比較,設置了幾個不同的 β 定值作爲非自適應版本的實驗(β=0.25、0.5、0.75、1.0)。實驗結果又再次表明,自適應調整β值的重要性。

Pascal VOC 2007 數據集,作者分別隨機制作了2組5分類的子集、1組10分類的子集。實驗結果如下圖3所示,仍是本研究提出的自適應組合策略取得最佳效果,自適應選擇β值比定值的效果更佳。此外,作者在5分類的子集上統計了被選中樣本的所屬類的分佈信息,如下圖3(e)通過直方圖進行展示,表明了來自不同類別的圖像具有不一樣的信息量。
綜上:上述實驗證實了本研究提出的自適應組合式的主動學習選擇策略在三組數據集上的效果都優於本研究中的其他對比實驗。


Conclusion:總結

在本研究中,作者提出一種新穎的自適應組合式的主動選擇策略,包括1)uncertainty measure;2)information density,通過自適應調整2種衡量指標的權重在每次迭代中選擇最佳樣本給專家進行標註。自適應的特點使得能夠在不同的階段、不同場景下充分利用2種不同評價指標的優勢。該方法能夠有效的利用未標註樣本的信息,從而提升 uncertainty sampling 的性能(uncertainty sampling 沒有利用到未標註樣本的信息)。本研究使用圖像分類任務作爲實驗,本研究提出的選擇策略相對其他已存在的選擇策略中,能夠在提升分類器性能的情況下,減少訓練樣本量。


精讀後的總結:後續可用於大論文中的語句

總結:

這篇 CVPR-2013 的文章主要提出一種“自適應組合的主動學習策略”,通過自適應的方式在每次迭代篩選樣本時,充分利用不確定性指標和信息密度(uncertainty measure and information density)等兩種不同的選擇策略。作者將提出的策略應用到3組圖像分類(1組場景識別、2組目標識別)相關的數據集中,並與4種不同的主動選擇策略進行實驗對比,取得了所有實驗的最佳結果。其中,值得一提的是,作者還驗證了引入自適應選擇的優勢。

文章亮點:

  • Related Work:作者很詳細的整理了截止2013年關於主動學習相關的研究。大多數主動學習相關的文章都僅僅使用樣本的最不確定性指標,忽略了未標註樣本的信息,帶來了比較明顯的缺陷就是容易選擇離羣樣本。爲了解決這個缺陷,也有一些文章開始關注未標註樣本的信息(聚類方法、組合不同策略的方法)。

  • 組合等兩種不同的策略:文獻[26]提出了一種形如 [f(x)d(x)] 的組合策略。其中,information density 是基於 cosine distance 來衡量,並且 β 是個定值。作者借鑑文獻[26]的思路,將 uncertainty measure 和 information density 進行組合。其中,information density 是使用 Gaussian Process Framework 進行計算,形如公式(3)所示。

  • 引入自適應權衡兩種策略的特點:這是本研究中較大的亮點(作者在原文中也提到,如何衡量兩種策略的重要程度是一個非常難的問題),也是相對文獻[26]中最不一樣的地方。作者通過自適應的方式去調整 β 的值,在每次迭代過程中充分利用兩種不同策略的優勢,篩選出最佳的樣本。

  • 在一定程度上緩解了計算代價:作者提出的自適應組合策略中唯一存在較大計算代價的是矩陣的逆運算,作者參考了文獻[36]的方案,通過移除行/列去計算矩陣的逆(compute the inverse matrix with one row/column removed),從而緩解了計算的問題(詳情參考原文獻)。此外,作者還提出一個值得借鑑的方法:在主動學習的每次迭代過程中,首先可以對所有未標註樣本進行隨機採樣產生一個子集,然後限制只能從這個子集中篩選候選樣本。

  • 實驗結果一致驗證了作者提出方法的有效性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章