有監督學習(Supervised Learning)
訓練集數據爲\(\{ (x^r,\ \hat y^r) \}_{r=1}^R\),其中每組數據包括算法的輸入與輸出(標籤)。
半監督學習(Semi-supervised Learning)
訓練集數據爲\(\{ (x^r,\ \hat y^r) \}_{r=1}^R+\{ x^u\}_{u=R+1}^{U+R}\),即其中部分數據有標籤而大量數據沒有標籤(\(U>>R\))。
半監督學習可以分爲以下2種情況
-
Transductive Learning
unlabeled data is the testing data,只使用testing data中的feature,並沒有使用testing data中的label,所以並沒有cheating。
適用於已知testing data的情況,比如kaggle比賽。
-
Inductive Learning
unlabeled data is not the testing data,完全不使用testing data。
適用於testing data未知的情況,這是大多數情況。
爲什麼需要半監督學習
其實缺的並不是數據,缺少的是有標籤的數據。利用這些大量的沒有標籤的數據進行學習,這是非常有價值的。
爲什麼半監督學習有用
The distribution of the unlabeled data tell us something:無標註數據的分佈可以告訴我們一些東西
半監督學習往往伴隨着假設,而該假設的合理與否決定了結果的好壞程度。如上圖所示,在貓狗圖片分類中一隻狗被認爲是一隻貓,這很可能是由於這2張圖片的背景都是綠色,因此假設的合理性至關重要。
Github(github.com):@chouxianyu
Github Pages(github.io):@臭鹹魚
知乎(zhihu.com):@臭鹹魚
博客園(cnblogs.com):@臭鹹魚
B站(bilibili.com):@絕版臭鹹魚
微信公衆號:@臭鹹魚
轉載請註明出處,歡迎討論和交流!