李宏毅機器學習課程筆記-10.1半監督學習簡介

原創

2021-04-16 13:39

有監督學習(Supervised Learning)

訓練集數據爲\(\{ (x^r,\ \hat y^r) \}_{r=1}^R\)，其中每組數據包括算法的輸入與輸出(標籤)。

訓練集數據爲\(\{ (x^r,\ \hat y^r) \}_{r=1}^R+\{ x^u\}_{u=R+1}^{U+R}\)，即其中部分數據有標籤而大量數據沒有標籤(\(U>>R\))。

半監督學習可以分爲以下2種情況

Transductive Learning

unlabeled data is the testing data，只使用testing data中的feature，並沒有使用testing data中的label，所以並沒有cheating。

適用於已知testing data的情況，比如kaggle比賽。
Inductive Learning

unlabeled data is not the testing data，完全不使用testing data。

適用於testing data未知的情況，這是大多數情況。

其實缺的並不是數據，缺少的是有標籤的數據。利用這些大量的沒有標籤的數據進行學習，這是非常有價值的。

The distribution of the unlabeled data tell us something：無標註數據的分佈可以告訴我們一些東西

半監督學習往往伴隨着假設，而該假設的合理與否決定了結果的好壞程度。如上圖所示，在貓狗圖片分類中一隻狗被認爲是一隻貓，這很可能是由於這2張圖片的背景都是綠色，因此假設的合理性至關重要。

Github（github.com）：@chouxianyu

Github Pages（github.io）：@臭鹹魚

知乎（zhihu.com）：@臭鹹魚

博客園（cnblogs.com）：@臭鹹魚

B站（bilibili.com）：@絕版臭鹹魚

微信公衆號：@臭鹹魚

轉載請註明出處，歡迎討論和交流!

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.