【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 論文筆記

主動學習閱讀資料:

【Active Learning - 00】 主動學習概念/重要論文目錄/重要代碼&資源

【Active Learning - 01】 2013_CVPR_Adaptive Active Learning for Image Classification 論文筆記

---------------------------------------------------------------------------------------------------------------------------------

論文地址:2013_CVPR_Adaptive Active Learning for Image Classification

Introduction:

目的:提出一種有效的主動學習方法,儘可能對更少的樣本進行標記,提高分類器的效果。

We aim to develop an effective active learning method to build a competitive classifier with a limited amount of labeled training instances.

目前使用Uncertainty指標進行選擇在許多場景下都非常有效,但這個僅僅利用了候選樣本在當前分類模型下(使用labeled樣本訓練出來)的關係信息(例如根據不確定性大小排序),沒有考慮未標註樣本的數據分佈信息。導致一些outlier(離羣點)會被選擇出來,他們的不確定性非常高,但是實際上提升分類器效果沒有什麼幫助。

These works however merely evaluate the informativeness of instances with most uncertainty measures, which assume an instance with higher classification uncertainty is more critical to label. Although the most uncertainty measures are effective on selecting informative instances in many scenarios, they only capture the relationship of the candidate instance with the current classification model and fail to take the data distribution information contained in the unlabeled data into account. This may lead to selecting non-useful instances to label. For example, an outlier can be most uncertain to classify, but useless to label. This suggests representativeness of the candidate instance in addition to the classification uncertainty should be considered in developing an active learning strategy.

本文提出了一種主動學習的方法,同時利用標註與未標註樣本信息進行查詢選擇。測量指標包括兩個內容:(1)不確定性,候選樣本在當前使用labeled樣本訓練好的分類器上的表現;(2)密度信息,候選樣本和整個未標準樣本集的相互關係(指分佈情況)。這兩部分在文中使用權重參數進行平衡,最小化未標註樣本在分類器上的誤差。

we propose a novel adaptive active learning strategy that exploits information provided by both the labeled instances and the unlabeled instances for query selection. Our new query selection measure is an adaptive combination of two terms: an uncertainty term based on the current classifier trained on the labeled instances; and an information density term that measures the mutual information between the candidate instance and the remaining unlabeled instances.

Related Work: 

這個部分主要是介紹的傳統的選擇方法,在【Active Learning - 00】 主動學習概念/重要論文目錄/重要代碼&資源中基本上有提到,可自行閱讀,這裏不細說。

總結就是,這些選擇方法都忽視了未標註樣本集的數據分佈信息。在本研究中,作者解決了不確定性指標的內在限制

Therefore these methods have the drawback of ignoring the distributional information contained in the large number of unlabeled instances, as we discussed above. In this paper, we develop a new active learning method for image classification tasks, which overcomes the inherent limitation of uncertainty sampling.

 Method:

內容主要包括:(1)不確定性指標;(2)信息密度的衡量;(3)自適應組合框架結合不同選擇策略。

(1)Uncertainty Measure:

即使用probability求算熵,選擇熵大的樣本x:

(2)Information Density Measure:

目的就是在於解決uncertainty sampling的缺點,於是在進行查詢時考慮未標註樣本集。這個做法的動機是:使用代表性的樣本構成輸入,對於提高目標分類器的泛化性能非常informative。雖然輸入分佈沒有給出,但是大量的未標註樣本可以近似表達輸入空間。以往的semi-supervised學習證實,未標註樣本的分佈對於訓練分類器非常有幫助。

根據直覺,應當選擇那些位於密集區域的樣本(an instance will be much more informative about other unlabeled instances)而不是那些位於稀疏區域的(the ones located in a sparse region)。我們使用information density來表示某個候選樣本對剩下的未標註樣本的信息量。本文使用Gaussian Process framework來定義信息密度(即候選樣本和剩下未標註樣本集的相互信息mutual information)。

mutual information用於衡量兩個變量間的相互獨立性,比marginal density p(x)更加直觀,也比cosine distance information density更加合理。mutual information可以定義爲:

第一項是候選樣本xi的熵,後一項是xi對於未標註數據集在除去xi樣本後的熵。

這個熵H( )如何計算呢?文章使用的一個高斯過程,其相當於表示在一組(可能無窮大)隨機變量的聯合分佈。因此文中對於每一個候選樣本x引入了一個隨機變量X(x),因此使用一個對稱正定核函數 K(·, ·) 去生成一個協方差矩陣,因此σi2 = K(xi, xi):

 

最終計算公式如(6-7-8)所示。

(3)A Combination Framework:

這一部分是對(1)的(2)指標進行組合,滿足“對於當前分類器是最不確定的”,又要滿足“相對剩下的未標註樣本是非常富有信息量的”的樣本將會被進行選擇。這樣的話,將這些候選樣本加入labeled set能夠使的分類器在未標註樣本集上獲得更高的準確率。因此這個組合指標可以寫作:

儘管uncertatinty term f(x)是判別性指標,而信息密度指標d(xi)1-β是根據輸入空間進行計算,並且跟目標判別分類器模型沒有直接的聯繫。但也能夠去選擇那些具有信息量的樣本,同時減少泛化誤差而且不增加額外計算代價。

(4)Adaptive Combination

β<0.5,density比uncertainty更重要;β>0.5,uncertainty比density更重要;β=1時,相當於只使用uncertainty。實際上在訓練時很難判斷什麼時候,對於什麼樣本來說哪一個指標更重要,需要動態評估並且在每一次迭代中修改β的值。

因此如何確定這個β值的呢?作者每一次從實現定義好的B集中選擇一個數作爲β值,應用到所有樣本,再選出在這個值設定下獲得一個最優樣本,共計b個(b等於B中設置β值得個數),再從這b個樣本中進行選擇。例如B=[0.1,0.2...1],可以選擇b=10個樣本,對應每一個不同的β值。此時,選擇最優的β值相當於從這b個樣本中選擇最有信息量的樣本了(這b個樣本都有各自對應的β值)。——此處相當於是要做兩次篩選,最終選擇最優樣本的公式可以表示爲:

完整算法表如下:

Experimental Results:

數據庫:

 1.場景分類數據集(總共 3859 張圖像)

2.目標識別: (1)Caltech-101 (2)Pascal VOC 2007

實驗對比:

(1) Random Sampling

(2) Most Uncertainty

(3) Near Optimal

(4) Fixed Combination: 使用cosine distance衡量information density,使用固定參數β = {0.25, 0.5, 0.75, 1}

(5) Proposed Apporach 

Conclusion:

自適應組合式的主動選擇策略

(1)Uncertainty measure

(2)information density

 

自我總結:這篇文章的contributions主要是兩個點,一個是加入了information density引入了未標註樣本集的分佈信息;另一個是用了自適應的β求算公式,再每一次迭代中都可以獲得最優的查詢樣本。

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章