Coursera Machine Learning 學習筆記（十三）

原創

2018-08-20 19:56

VI. Logistic Regression (Week 3)

- Classification

在分類問題中，我們所嘗試預測的是結果是否屬於某一類（例如正確或錯誤）。分類問題的例子有：判斷一封電子郵件是否是垃圾郵件；判斷一封電子郵件是否是垃圾郵件；判斷一次金融交易是否是欺詐等等。

我們從二元的分類問題開始討論。

我們將因變量（dependent variable）可能屬於的兩個類分別稱爲負向類（negative class）和正向類（positive class），則因變量

- Hypothesis representation

下面，我們回顧一開始提到的乳腺癌分類問題，我們可以用線性迴歸的方法求出適合數據的一條直線。

根據線性迴歸模型我們只能預測連續的值，然而對於分類問題，我們需要輸出0或1，我們可以預測：

對於上圖所示的數據，這樣的一個線性模型似乎能很好地完成分類任務。然而，假設我們又觀測到一個非常大尺寸的惡性腫瘤，將其作爲實例加入到我們的訓練集中來，這將使得我們獲得一條新的直線。

此時，再使用0.5作爲閾值來預測腫瘤是良性還是惡性便不合適了。可以看出，線性迴歸模型，因爲其預測的值可以超越[0,1]的範圍，並不適合解決這樣的問題。

於是，我們引入一個新的模型，邏輯迴歸，該模型的輸出變量範圍始終在0和1之間。

其中，的作用是，對於給定的輸入變量，根據選擇的參數計算輸出變量=1的可能性（estimated probability），即

例如，如果對於給定的x，通過已經確定的參數計算得出，則表示有百分之70的機率y爲正向類，相應的y爲負向類的機率爲1 - 0.7 = 0.3。

- Decision boundary

在邏輯迴歸中，我們預測：

根據之前繪製出的S形函數圖像，我們知道當：

又，即：

舉個例子，假設我們有一個模型：並且參數是向量[-3 1 1]。

則當大於等於0，即大於等於3時，模型將預測y = 1。

我們可以繪製直線，這直線便是我們模型的分界線，將預測爲1的區域和預測爲0的區域分隔開。

假使我們的數據呈現如下情況，究竟需要怎樣的模型才合適呢？

因爲需要用曲線才能分隔開y = 0的區域和y = 1的區域，我們需要二次方特徵：

假設參數是[-1 0 0 1 1]，則我們得到的判定邊界恰好是圓點在原點且半徑爲1的圓形。

我們可以用非常複雜的模型來適應非常複雜形狀的判定邊界。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章