###haohaohao######主動學習用於標註優化迭代

我們使用一些傳統的監督學習方法做分類的時候,往往是訓練樣本規模越大,分類的效果就越好。但是在現實生活的很多場景中,標記樣本的獲取是比較困難的,這需要領域內的專家來進行人工標註,所花費的時間成本和經濟成本都是很大的。而且,如果訓練樣本的規模過於龐大,訓練的時間花費也會比較多。那麼有沒有辦法,能夠使用較少的訓練樣本來獲得性能較好的分類器呢?主動學習(Active Learning)爲我們提供了這種可能。主動學習通過一定的算法查詢最有用的未標記樣本,並交由專家進行標記,然後用查詢到的樣本訓練分類模型來提高模型的精確度。

在人類的學習過程中,通常利用已有的經驗來學習新的知識,又依靠獲得的知識來總結和積累經驗,經驗與知識不斷交互。同樣,機器學習模擬人類學習的過程,利用已有的知識訓練出模型去獲取新的知識,並通過不斷積累的信息去修正模型,以得到更加準確有用的新模型。不同於被動學習被動的接受知識,主動學習能夠選擇性地獲取知識,

主動學習的模型如下:

A=(C,Q,S,L,U),

其中 C 爲一組或者一個分類器,L是用於訓練已標註的樣本。Q 是查詢函數,用於從未標註樣本池U中查詢信息量大的信息,S是督導者,可以爲U中樣本標註正確的標籤。學習者通過少量初始標記樣本L開始學習,通過一定的查詢函數Q選擇出一個或一批最有用的樣本,並向督導者詢問標籤,然後利用獲得的新知識來訓練分類器和進行下一輪查詢。主動學習是一個循環的過程,直至達到某一停止準則爲止。

剛纔說到查詢函數Q用於查詢一個或一批最有用的樣本。那麼,什麼樣的樣本是有用的呢?即查詢函數查詢的是什麼樣的樣本呢?在各種主動學習方法中,查詢函數的設計最常用的策略是:不確定性準則(uncertainty)和差異性準則(diversity)。

對於不確定性,我們可以藉助信息熵的概念來進行理解。我們知道信息熵是衡量信息量的概念,也是衡量不確定性的概念。信息熵越大,就代表不確定性越大,包含的信息量也就越豐富。事實上,有些基於不確定性的主動學習查詢函數就是使用了信息熵來設計的,比如熵值裝袋查詢(Entropy query-by-bagging)。所以,不確定性策略就是要想方設法地找出不確定性高的樣本,因爲這些樣本所包含的豐富信息量,對我們訓練模型來說就是有用的。

那麼差異性怎麼來理解呢?之前說到或查詢函數每次迭代中查詢一個或者一批樣本。我們當然希望所查詢的樣本提供的信息是全面的,各個樣本提供的信息不重複不冗餘,即樣本之間具有一定的差異性。在每輪迭代抽取單個信息量最大的樣本加入訓練集的情況下,每一輪迭代中模型都被重新訓練,以新獲得的知識去參與對樣本不確定性的評估可以有效地避免數據冗餘。但是如果每次迭代查詢一批樣本,那麼就應該想辦法來保證樣本的差異性,避免數據冗餘。

 

樣例選擇算法

根據獲得未標註樣例的方式,可以將主動學習分爲兩種類型:基於流的和基於池的。

基於流(stream-based)的主動學習中,未標記的樣例按先後順序逐個提交給選擇引擎,由選擇引擎決定是否標註當前提交的樣例,如果不標註,則將其丟棄。

基於池(pool-based)的主動學習中則維護一個未標註樣例的集合,由選擇引擎在該集合中選擇當前要標註的樣例。

基於池的樣例選擇算法

1)基於不確定度縮減的方法

這類方法選擇那些當前基準分類器最不能確定其分類的樣例進行標註。這類方法以信息熵作爲衡量樣例所含信息量大小的度量,而信息熵最大的樣例正是當前分類器最不能確定其分類的樣例。從幾何角度看,這種方法優先選擇靠近分類邊界的樣例。

2)基於版本縮減的方法

這類方法選擇那些訓練後能夠最大程度縮減版本空間的樣例進行標註。在二值分類問題中,這類方法選擇的樣例總是差不多平分版本空間。

代表:QBC算法

QBC算法從版本空間中隨機選擇若干假設構成一個委員會,然後選擇委員會中的假設預測分歧最大的樣例進行標註。爲了優化委員會的構成,可以採用Bagging,AdaBoost等分類器集成算法從版本空間中產生委員會。

3)基於泛化誤差縮減的方法

這類方法試圖選擇那些能夠使未來泛化誤差最大程度減小的樣例。其一般過程爲:首先選擇一個損失函數用於估計未來錯誤率,然後將未標註樣例集中的每一個樣例都分別估計其能給基準分類器帶來的誤差縮減,選擇估計值最大的那個樣例進行標註。

這類方法直接針對分類器性能的最終評價指標,但是計算量較大,同時損失函數的精度對性能影響較大。

4)其它方法

COMB算法:組合三種不同的學習器,迅速切換到當前性能最好的學習器從而使選擇樣例儘可能高效。

多視圖主動學習:用於學習問題爲多視圖學習的情況,選擇那些使不同視圖的預測分類不一致的樣例進行學習。這種方法對於處理高維的主動學習問題非常有效。

預聚類主動學習:預先運行聚類算法預處理,選擇樣例時優先選擇最靠近分類邊界的樣例和最能代表聚類的樣例(即聚類中心)。

基於流的樣例選擇算法

基於池的算法大多可以通過調整以適應基於流的情況。但由於基於流的算法不能對未標註樣例逐一比較,需要對樣例的相應評價指標設定閾值,當提交給選擇引擎的樣例評價指標超過閾值,則進行標註,但這種方法需要針對不同的任務進行調整,所以難以作爲一種成熟的方法投入使用。

QBC曾用於解決基於流的主動學習問題。樣例以流的形式連續提交給選擇引擎,選擇引擎選擇那些委員會(此處委員會只由兩個成員分類器組成)中的成員分類器預測不一致的樣例進行標註。

應用

文檔分類和信息提取

以貝葉斯方法位基準分類器,使用基於不確定度縮減的樣例選擇算法進行文本分類。

將EM算法同基於QBC方法的主動學習集合。EM算法能夠有效的利用未標註樣例中的信息提高基準分類器的分類正確率。而QBC方法能夠迅速縮減版本空間。

圖像檢索

利用SVM作爲基準分類器的主動學習算法來處理圖像檢索。該算法採用最近邊界方法作爲樣例選擇算法,同時將圖像的顏色、紋理等提取出來作爲部分特徵進行學習。

入侵檢測

由於入侵檢測系統較多地依賴專家知識和有效的數據集,所以可以採用主動學習算法降低這種依賴性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章