機器學習筆記 (一) 監督學習、無監督學習

  • 監督學習(Supervised Learning)

在監督學習中,給定一組數據,我們知道正確的輸出結果應該是什麼樣子,並且知道在輸入和輸出之間有着一個特定的關係。這麼說可能理解起來不是很清晰,沒關係,後面有具體的例子。

  • 監督學習的分類

監督學習可分爲“迴歸”和“分類”問題。


監督學習分類

在迴歸問題中,我們會預測一個連續值。也就是說我們試圖將輸入變量和輸出用一個連續函數對應起來;而在分類問題中,我們會預測一個離散值,我們試圖將輸入變量與離散的類別對應起來。

下面舉兩個例子,就會非常清楚這幾個概念了。

  • 監督學習舉例

  • 迴歸

通過房地產市場的數據,預測一個給定面積的房屋的價格就是一個迴歸問題。這裏我們可以把價格看成是面積的函數,它是一個連續的輸出值。 但是,當把上面的問題改爲“預測一個給定面積的房屋的價格是否比一個特定的價格高或者低”的時候,這就變成了一個分類問題, 因爲此時的輸出是‘高’或者‘低’兩個離散的值。


  • 分類

給定醫學數據,通過腫瘤的大小來預測該腫瘤是惡性瘤還是良性瘤(課程中給的是乳腺癌的例子),這就是一個分類問題,它的輸出是0或者1兩個離散的值。(0代表良性,1代表惡性)。

分類問題的輸出可以多於兩個,比如在該例子中可以有{0,1,2,3}四種輸出,分別對應{良性, 第一類腫瘤, 第二類腫瘤, 第三類腫瘤}。

下圖中上下兩個圖只是兩種畫法。第一個是有兩個軸,Y軸表示是否是惡性瘤,X軸表示瘤的大小; 第二個是隻用一個軸,但是用了不同的標記,用O表示良性瘤,X表示惡性瘤。


在這個例子中特徵只有一個,那就是瘤的大小。 有時候也有兩個或者多個特徵, 例如下圖, 有“年齡”和“腫瘤大小”兩個特徵。(還可以有其他許多特徵,如下圖右側所示)


  • 無監督學習

在無監督學習中,我們基本上不知道結果會是什麼樣子,但我們可以通過聚類的方式從數據中提取一個特殊的結構。在無監督學習中給定的數據是和監督學習中給定的數據是不一樣的。在無監督學習中給定的數據沒有任何標籤或者說只有同一種標籤。如下圖所示:


如下圖所示,在無監督學習中,我們只是給定了一組數據,我們的目標是發現這組數據中的特殊結構。例如我們使用無監督學習算法會將這組數據分成兩個不同的簇,,這樣的算法就叫聚類算法。


  • 無監督學習舉例

  • 新聞分類

第一個例子舉的是Google News的例子。Google News蒐集網上的新聞,並且根據新聞的主題將新聞分成許多簇, 然後將在同一個簇的新聞放在一起。如圖中紅圈部分都是關於BP Oil Well各種新聞的鏈接,當打開各個新聞鏈接的時候,展現的都是關於BP Oil Well的新聞。


  • 根據給定基因將人羣分類

如圖是DNA數據,對於一組不同的人我們測量他們DNA中對於一個特定基因的表達程度。然後根據測量結果可以用聚類算法將他們分成不同的類型。這就是一種無監督學習, 因爲我們只是給定了一些數據,而並不知道哪些是第一種類型的人,哪些是第二種類型的人等等。


  • 雞尾酒派對效應

詳見課程: Unsupervised Learning

  • 其他

這裏又舉了其他幾個例子,有組織計算機集羣,社交網絡分析,市場劃分,天文數據分析等。具體可以看一下視頻:Unsupervised Learning




鏈接:http://www.jianshu.com/p/7bae1ead174e
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章