半監督學習研究

昨天閱讀了半監督學習的一些綜述,整理如下:
在機器學習的實際應用中,如網頁分類、文本分類、基因序列對比、蛋白質功能預測、語音識別、自然語言處理、計算機視覺和基因生物學,很容易找到海量的無類標籤的樣例,但需要使用特殊設備或經過昂貴且用時非常長的實驗過程中進行人工標記才能得到有類標籤的樣本,由此產生了極少量的有類標籤的樣本和過剩的無類標籤的樣例。因此,人們嘗試將大量的無類標籤的樣例加入到有限的有類標籤的樣本中一起訓練進行學習,期望能對學習性能起到改進的作用,於是半監督學習(Semi-Supervised Learning,SSL)產生了,旨在避免數據和資源的浪費,解決監督學習模型泛化能力不強、無監督學習的模型不精確等問題,圖1形象地展示了SSL。
這裏寫圖片描述

1 半監督學習的假設
半監督學習希望利用無類標籤的樣例幫助改進學習性能,但是需要依賴模型假設才能確保它良好的學習性能。SSL依賴的假設有以下3個:
(1) 平滑假設(Smoothness Assumption)
位於稠密數據區域的兩個距離很近的樣例的類標籤相似,當兩個樣例北稀疏區域分開時,它們的類標籤趨於不同。
(2) 聚類假設(Cluster Assumption)
當兩個樣例位於同一聚類簇時,它們在很大的概率在有相同的類標籤。這個假設的等價定義爲低密度分類假設(Low Density Separation Assumption),即分類決策邊界應該穿過稀疏數據區域,而避免將稠密數據區域的樣例劃分到決策邊界兩側。
(3) 流形假設(Manifold Assumption)
將高維數據嵌入到低維流形中,當兩個樣例位於低維流形中的一個小局部鄰域內時,它們具有相似的類標籤。
許多實驗研究表明當SSL不滿足這些假設或者模型假設不正確時,無類標籤的樣例不僅不能對學習性能起到改進作用,反而會惡化學習性能,導致SSL的性能下降。但是,也有實驗表明,在一些特殊的情況下,即使模型假設正確,無類標籤的樣例也有可能損害學習性能。

2 半監督學習的分類
(1) 半監督分類
在無類標籤的樣例的幫助下訓練有類標籤的樣本,獲得比只用有類標籤的樣本訓練得到的分類器性能更優的分類器,彌補有類標籤的樣本不足的缺陷。
(2) 半監督迴歸
在無輸出的輸入的幫助下訓練有輸出的輸入,獲得比只用有輸出的輸入訓練得到的迴歸器性能更好的迴歸器。
(3) 半監督聚類
在有類標籤的樣本的信息幫助下獲得比只用無類標籤的樣例得到的結果更好的簇,提高聚類方法的精度。
(4) 半監督降維
在有類標籤的樣本的信息幫助下找到高維輸入數據的低維結構,同時保持原始高維數據和成對約束的結構不變,即在高維空間中滿足正約束的樣例在低維空間中相距很近,在高維空間中滿足負約束的樣例在低維空間中距離很遠。

圖2 SSL學習結構
這裏寫圖片描述

3 半監督分類問題
半監督分類問題是SSL最常見的問題,其中有類標籤的樣本數量相比聚類問題多一些,通過大量的無類標籤的樣例來彌補部分有類標籤樣本的缺陷,訓練得到分類性能更優的分類器。
主要的半監督分類方法有基於差異的方法(Disagreement-Based Methods)、生成式方法(Generative Methods)、判別式方法(Discriminative Methods)和基於圖的方法(Graph-Based Methods).
(1) 基於差異的方法
ML中的數據有時可以用多種方式表示其特徵。例如,在網頁分類問題中,網頁可以用每頁出現的詞描述,也可以用超鏈接描述;癌症診斷可以用CT、超聲波或MRI等多種醫學圖像技術確定患者是否患有癌症。基於這些樸素的思想,產生了基於差異的方法。
這裏介紹協同訓練方法。如圖3所示,協同訓練方法的基本訓練過程爲:在有類標籤的樣本的兩個不同視圖上分別訓練,得到兩個不同的學習機,然後用這兩個學習機預測無類標籤的樣例的類標籤,每個學習機選擇標記結果置信度最高的樣例和它們的類標籤加入另一個學習機的有類標籤的樣本集中。這個過程反覆迭代進行,直到滿足停止條件。這個方法需要滿足兩個假設條件:(1)視圖充分冗餘假設。給定足夠數量的有類標籤的樣本,基於每個視圖都能通過訓練得到性能很好的學習機;(2)條件獨立假設。每個視圖的類標籤都條件獨立於另一視圖給定的類標籤。

圖3 協同訓練方法示意
這裏寫圖片描述

基於差異的方法由於性能優越而得到廣泛的應用,由此出現了許多變形。比如協同EM算法,只用有類標籤的樣本初始化第一視圖學習機,然後用這個學習機以概率方式標記所有無類標籤的樣例,第二視圖學習機訓練所有數據,將得到的新的樣本提供給第一視圖學習機進行再訓練,這個過程反覆迭代進行,知道學習機的預測結果收斂。【存有疑問,在之後的小論文閱讀分析後再重新寫一篇文章】
儘管基於差異的方法已經廣泛應用於許多實際領域,如統計語法分析、名詞短語識別等,但是在大多數實際問題中,訓練數據往往不滿足視圖充分冗餘假設。有學者提出類似集成學習思想的方法,比如三訓練法,用三個學習機分別進行訓練,按投票選舉的方式間接得到標記置信度,如果兩個學習機對同一個無類標籤的樣例的預測結果相同,則認爲該樣例具有較高的標記置信度,將其與它的類標籤加入到第三個學習機的訓練數據中。

(2) 生成式方法
生成式方法假定樣例和類標籤由某個或有一定結構關係的某組概率分佈生成,已知類先驗分佈p(y)和類條件分佈p(x|y),重複取樣y~p(y)和x~p(x|y),從這些分佈中生成有類標籤的樣本L和無類標籤的樣例U.根據概率論定理得到後驗分佈p(y|x),找到使p(y|x)最大的類標籤對x進行標記。
生成樣例的模型由高斯模型,貝葉斯網絡,S型信度網,GMM,多項混合模型(Multinomial Mixture Model,MMM),隱馬爾科夫模型(Hidden Markov Model,HMM)和隱馬爾科夫隨機場模型(Hidden Markov Random Field, HMRF)等。
備註:在下一篇文章中會介紹最常見的生成式方法,即樸素貝葉斯分類器。

(3) 判別式方法
判別式方法利用最大間隔算法同時訓練有類標籤的樣本和無類標籤的學習決策邊界,如圖4所示,是其通過低密度數據區域,並且使學習得到的分類超平面到最近的樣例的距離間隔最大。判別式方法包括LDA、廣義判別分析法(Generalized Discriminant Analysis, GDA)、半監督支持向量機、熵正則化法和KNN等。

圖4 判別式方法示意
這裏寫圖片描述

(4) 基於圖的方法
基於圖的方法的實質是標籤傳播(Label Propagation),基於流形假設,根據樣例之間的幾何結構構造圖(Graph),用圖的結點表示樣例,利用圖上的鄰接關係將類標籤從有標籤的樣本向無標籤的樣例傳播。
如圖5所示,基於圖的方法的基本訓練過程爲:
這裏寫圖片描述
(1) 選擇合適的距離函數計算樣例之間的距離。
可選擇的距離函數有歐式距離、曼哈頓距離、切比雪夫距離、明氏距離、馬氏距離和歸一化歐式距離。
(2) 根據計算得到的距離選擇合適的連接方式,將樣例用邊連接,構造連接圖。
構造的連接圖分爲稠密圖和稀疏圖,稠密圖的典型代表是全連接圖,如圖6所示,任意結點之間都有邊連接;稀疏圖如圖7所示,按照某種準則將距離最近的某幾個結點連接,包括KNN圖、指數權圖等。
圖6 稠密圖示意
這裏寫圖片描述
圖7 稀疏圖示意
這裏寫圖片描述
(3) 用核函數給圖的連接邊賦予權值,用權值反映這個邊所連接的兩個結點之間的相似程度。
當兩個結點距離很近時,連接這兩個結點的邊的權值就很大,這兩個樣例有相同的類標籤的概率就很大;當距離很遠時,對應權值很小,這兩個樣例有相同類標籤的概率就很小。常用的核函數有線性核、多項式核、高斯核等。
(4) 根據學習目標確定優化問題並求解。
半監督分類問題的目標就是找到使目標函數最小的類標籤的預測函數f(x),這個問題可以看做是一個由損失函數和正則化組成的複合目標函數的正則化風險最小化問題,目標函數一般表示爲
這裏寫圖片描述
式中損失函數V(y,f(x))用來懲罰樣例的預測類標籤不等於給定類標籤的情況,正則化函數Ω(f)用來保證預測函數的平滑性,使近鄰點的預測類標籤相同。根據具體的學習任務可以選擇不同的損失函數和正則化函數,如損失函數可以選取平方誤差函數、絕對值函數、對數函數等。一般將損失函數和正則化函數複製到希爾伯特空間,用核學習方法求解學習機。

參考文獻:
Zhu X. Semi-supervised learning literature survey[J]. 2005.
劉建偉, 劉媛, 羅雄麟. 半監督學習方法[J]. 計算機學報, 2015, 38(8).

備註:在閱讀綜述的時候,給予我很多啓發,也產生一些疑問,接下來我先從EM和改進的EM算法/樸素貝葉斯算法入手,通過實驗來進行比較。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章