吳恩達機器學習課筆記week 3

原創

2018-09-04 20:17

本週主要講分類、邏輯迴歸以及正則化

分類

分類問題的幾個例子

判別一個郵件是/不是垃圾郵件
判別一個轉賬交易是/不是欺詐交易
判別腫瘤是惡性/良性
也就是說輸出的y的取值是 ${0, 1}$ ，0一般表示negative class，1表示positive class。對於多類別則是 $y \in {0, 1, 2, 3, . . .}$ 。

線性迴歸解決這個分類問題會有什麼問題？
如下圖所示：

如果用線性迴歸的話，會出現假如樣本點有一個離均值很遠的點的情況下，這個點導致整個判別面發生巨大的改變。這裏邊最主要的一點就是線性迴歸的 $y = h_{θ} (x)$ 可以＞1可以＜0。我們希望能夠有一個方法使得 $0 \leq y \leq 1$ 。

邏輯迴歸的hypothesis representation

如下圖所示：

我們在線性迴歸的基礎上，外邊套上一個非線性函數使得輸出在[0,1]之間。這個函數就是sigmoid 函數，或者叫logistic函數。

h_{θ} (z) = \frac{1}{1 + e x p (- z)} = \frac{1}{1 + e x p (- θ^{T} x)}

那麼現在這個 $h_{θ} (x)$ 表達的是什麼意思呢？表達的是對一個輸入x，y等於1的概率是多少。也就是說假如y=0.1，那麼說明P(y=1)=0.1，P(y=0)=0.9。這就是邏輯迴歸。

邏輯迴歸的決策面

如下圖所示：

假如我們認定如果 $h_{θ} (x) > 0.5$ 的話，我們就判定 $y = 1$ 那麼，也就是要求 $z = θ^{T} x > 0$ 。
所以對於線性分類面，只要考慮 $z > 0$ 和 $z < 0$ 的情況即可：

非線性的分類面也是如此：

邏輯迴歸的cost function

不能使用線性迴歸的cost function，因爲直接使用的話，cost function 會變成非凸函數。而是使用如下的：

梯度下降

優化進階

其實出了梯度下降之外，還有很多其他進階的優化方法，這些方法比梯度下降的方法要快，但是會比較複雜。

多分類：one vs all

one vs all（rest）這種方法，其實就是對每一類i，訓練一個邏輯迴歸分類器，然後有新的輸入x，那麼找到一個i，使得 $h_{θ}^{i} (x)$ 最大。

正則化

過擬合

過擬合就是因爲模型的feature太多，結果導致對訓練集上擬合的很好，但是泛化能力很弱。

過擬合的處理方法

過擬合有幾種處理方法，一種是減少feature數量，然後在模型之間選擇，另外就是正則化，正則化就是減少參數 $θ_{j}$ 的幅度，這樣每一個feature都會給最終的模型貢獻一點點。這個對於很多feature的情況下很有用。

Intuition

其實就是假如各個參數的大小比較小，那麼一些高次的feature貢獻的就少，這時候就能夠不要那麼過擬合。

方法就是在cost function後邊加上一個 $λ \sum_{j = 1}^{N} θ_{j}$

加上正則化之後，過擬合的情況就會得到改善：

正好有一個小問題：假如 $λ$ 選的很大會出現什麼結果？答：underfitting，沒法擬合了。

如下圖所示：

線性迴歸的正則化

如下圖所示，其實可以看出來，L2 Regularization等價於weight decay：

如果是正規方程的方法：

可以看到，假如 $X X^{T}$ 是奇異的，那麼經過正則化之後，變成非奇異的：

其實思路很簡單，因爲 $X X^{T}$ 的特徵值一定是非負的，非零特徵值一定大於1個，那麼加上這個矩陣之後，所有特徵值都是整的了，那麼就不是奇異的了。

邏輯迴歸的正則化

同樣，加上weight decay。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

sorted 在python2和3中的區別

文章目錄sorted 在python2和3中的區別 sorted 在python2和3中的區別 python3中取消了cmp參數 python3中的使用方法如下: from functools import cmp_to_key

2020-07-08 12:31:35

monggoDB學習筆記

1、mongo是什麼關鍵詞：分佈式、可擴展、介於關係與非關係數據庫之間、文檔存儲、JSON格式存儲（可對字段建索引，實現關係數據庫的某些功能）、默認監聽端口27017 MongoDB是一個基於分佈式文件存儲的開源數據庫系統。由C++語言

2020-07-08 12:27:44

Shell編程入門（二）

多練習纔會記得牢這裏的題目來自於（個別刪選）知乎：shell編程如果當前用戶是管理員，則使用yum 安裝 vsftpd,如果不是,則提示您非管理員，不可安裝提示用戶輸入用戶名和密碼,腳本自動創建相應的賬戶及配置密碼。

存在即合理_

2020-07-08 11:22:52

在使用Django出現的疑難雜症

不知道會被笑的點讀法 Django的讀法是 [ˈdʒæŋɡo] 中文發音是迪亞戈重點是D 是輕輔音，讀出來的時候有點像是不發音。版本問題 Python3.0在 2020年是不支持 Django 3.0.4版本的。Djan

存在即合理_

2020-07-08 11:22:52

運維入門（一）

專業名詞出包：項目在執行機上運行，打包出結果，再由運維工程師轉交給開發工程師的一項活動。門禁：門禁指的是CICD的門禁，是指必要的時候進行一系列測試，以保證代碼的質量和其功能是否實現。一般由CI集成工具完成搭建與配置。門禁設

存在即合理_

2020-07-08 11:22:52

Shell編程入門（三）

簡單的Shell 命令 ll /usr/bin/java ll命令顯示詳細信息，如果java是一個目錄，顯示目錄中文件的詳細信息，如果java是一個軟連接，顯示軟連接的指向 ll ‘which java’ 顯示命令的詳細信息

存在即合理_

2020-07-08 11:22:52

Android M 新特性

六大特性： App Permission （軟件權限管理）安裝時候不會提醒權限，而是在使用時候由程序請求權限；用戶也可以在設置中對應用進行相關權限控制Chrome Custom Tags (網頁體驗提升) 登陸網站存儲密碼，自動補全資料

Jay白色风车

2020-07-08 10:03:22

學習筆記----伸展樹

最近在看伸展樹，看到了一個不錯的文章，轉載一下便於以後學習轉載地址：http://dongxicheng.org/structure/splay-tree/ 1、概述二叉查找樹（Binary Search Tree，也叫二

2020-07-08 09:04:26

mini2440開發板學習裸機開發——day1 裸機運行LED燈程序

開發背景：系統：ubuntu18.04系統開發板:mini2440 串口連接工具 J-link連接工具工具：secureCRT J-link 本次學習基於韋東山老師的嵌入式linux應用開發手冊書，結合友善之臂給出的官方資料以

2020-07-08 08:59:17

java入門程序100例學習筆記（005遞歸調用）

問題：兩年期整存零取，每月1000元，年利率1.17，問應存多少錢思路：使用遞歸調用實現：問題：局部變量的問題，變量的定義應該放在哪裏總結：遞歸要掌握好代碼下載鏈接：http://download.csdn.net/detai

2020-07-08 06:59:06

pandas數據分析讀書筆記（五）

plt.xlabel()，畫x軸標題 Plt.ylabel()，畫y軸標題 Plt.savefig(‘figpath.png’)，把圖片保存爲文件 S = pd.Series(np.random.randn(10).cumsum())

2020-07-08 06:46:51

Spring+SpringMVC+Mybatis項目中pom.xml模板

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaL

2020-07-08 06:30:02

Redis在Windows系統下安裝成服務

我們知道Redis沒有Windows系統的安裝版。Windows系統下使用Redis，每次都要打開他的redis-server.exe，並保持cmd窗口不關閉，才能正常使用。要是一不小心關掉cmd窗口，那Redis服務也關閉了。其實Re

2020-07-08 06:30:02

小程序數據請求注意事項

本文僅作爲個人學習經驗總結，如有理解有誤的地方，歡迎在評論區指出，謝謝！1.小程序的請求格式官方文檔中有明確的說明，不懂得可以看官方文檔，微信小程序開發文檔2.微信只支持https的請求方式3.文檔中要求，客戶端的 HTTPS TLS

2020-07-08 04:25:07

js原生事件封裝

自己寫的js事件的一些封裝，僅做學習筆記使用第一部分 event 添加事件，刪除事件，以及冒泡的屏蔽，並都做了兼容性的處理<span style="font-size:24px;">var event = { //添加句柄添

2020-07-08 04:25:07

24小時熱門文章

最新文章

最新評論文章