機器學習第三章複習(1)

本文用於複習《Machine Learning》第三章部分內容

內容來自於Andrew Ng的機器學習課程,主要是爲了回憶起來方便

第三章第一講主要講解了分類問題和引入logistic regression


  • classification problem

在之前的章節中一直都在講解的是regression problem,然而回顧第一章講的supervised learning其實是包含regression problem和classification problem的。其實際用例有:判斷郵件是否爲垃圾郵件,判斷腫瘤是否爲惡性腫瘤等等。

這裏寫圖片描述
圖片(來自課程)如上所示,假設一開始只有前八個“X”,那麼可能意思就是腫瘤大小較小的前四個爲非惡性腫瘤,腫瘤較大的後四個爲惡性腫瘤,此時我們繼續運用之前的linear regression。

要知道 linear regression的目標是與預測值儘可能接近,那麼應該就會出現玫紅色的線,表明線以下的就是良性,以上就是惡性,可是當出現第九個點時,我們的預測就會失效,且我們就算根據第九個點調整預測線,也會導致錯誤。

所以!linear regression已經不適用了,此時引入logistic regression如下圖所示,更合適於區分類別。

  • logistic regression

這裏寫圖片描述
邏輯迴歸如上圖所示,z大於0就判斷g(z)大於0.5(可以變相舉例理解爲機率大於50%爲惡性腫瘤)反之同理,最後得到公式如下

hθ(x)=11+eθTx

- decision boundary
我將之稱作決策分界線,例如在之前的例子中,我們可以將分界定爲50%,即是說當hθ(x)≥0.5,則y=1,反之y=0,這樣劃出的界線就是decision boundary,當然decision boundary還可以是各式各樣的。
發佈了41 篇原創文章 · 獲贊 15 · 訪問量 8萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章