Tri-training regression, 協同訓練迴歸

本帖續貼(Tri-trianing :http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496162.html

以往的半監督學習研究幾乎都是關注分類問題  ,雖然在監督學習中迴歸問題的重要性不亞於分類問題,半監督迴歸卻一直缺乏研究。如第二節所述,在半監督迴歸中由於示例的標記是實值輸出,因此聚類假設不再成立,但半監督學習的流形假設仍然是成立的,而且因爲迴歸輸出通常具有平滑性,所以流形假設在迴歸問題中可能比在分類問題中更加有效。因此,如Zhu [Zhu06] 所述,一些基於流形假設的半監督學習技術,例如圖正則化算法,在理論上是可以推廣到半監督迴歸中去的。但實際上,此類技術由於要先建立圖再進行標記傳播,因此若直接推廣則只能進行直推回歸,要進行半監督迴歸還需要做一些其他處理。Z.-H. Zhou和M. Li [ZhouL05b] 最早使用協同訓練技術進行半監督迴歸。在迴歸問題中,由於示
例的屬性是連續的實數值,這就使得以往協同訓練算法中所使用的標記置信度估計技術難以直接使用。爲此,他們提出了一個選擇標記置信度最高的未標記示例的準則——標記置信度最高的未標記示例是在標記後與學習器的有標記訓練集最一致的示例。更嚴格的表述是,令h表示當前學習器學得的模型,L表示有標記示例集,xu∈U表示一個未標記示例,h’表示把h標記過的示例(xu , h(xu))加入訓練集後重新訓練得到的學習器,則標記置信度最高的未標記示例是在U中最大化式 3 的示例。

實際上, 3 也可以用於半監督分類。式基於式 3,Z.-H. Zhou 和 M. Li [ZhouL05b] 提出了 COREG算法,該算法不要求充分冗餘視圖,而是通過使用同一學習器的不同參數設置來生成兩個初始學習器。具體來說,他們使用了基於不同階 Minkowski 距離的兩個 k 近鄰迴歸模型作爲學習器,在協同訓練過程中,兩個學習器根據式 3 挑選未標記示例進行標記供對方進行更新。最後的迴歸預測通過對兩個 k 近鄰迴歸模型預測值的平均來完成。此後,他們 [ZhouL07] 又將 COREG 推廣到使用不同距離度量、不同近鄰個數以及其他迴歸模型的情況。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章