吳恩達機器學習筆記（8）——模型評估與機器學習診斷法

原創

2018-12-23 19:03

一、如何改進一個機器學習算法

假設你已經訓練出一個機器學習算法，但是效果不太好，那麼有以下幾種改進方法：
1、獲得更多的訓練數據
2、選用更少的特徵
3、增加特徵量
4、增加高次項
5、增大或減小正則化參數lambda的值
很多人只是隨機選擇上述方法的一種，即浪費時間又沒有效果。所以接下來會介紹模型的評估及機器學習的診斷法。

二、模型評估(Evaluating a Hypothesis)

1、評估假設：
一個訓練誤差最小的假設有時並不是一個好的假設，而且當特徵過多時，我們很難畫出假設函數來觀察。
有一種標準方法，將訓練數據分成兩部分，第一部分是訓練集，第二部分是測試集，一般是7:3左右。

2、具體步驟：
那麼我們訓練模型的流程可以有如下兩個部分：
（1）使用訓練集來訓練模型參數θ，（最小化代價函數Jtrain(Θ)）
（2）使用測試集來計算誤差Jtest(Θ)
對於線性迴歸來說，誤差：

對於邏輯迴歸來說，誤差：

三、模型選擇和訓練、驗證、測試集（Model selection and train/validation/test sets）

1、不使用驗證集的模型選擇：

一般的，是選擇J最小的那個模型，但是這樣只能使得模型對於測試集數據的誤差較小，而對於其他數據的泛化效果並不好。因而這種方法並不能很好的驗證誤差。

**
2、使用驗證集（Cross Validation Set）**
爲了解決泛用性問題，我們引入了第三個數據集，交叉驗證集。將其作爲訓練集和驗證集之間的中間層來訓練多項式次數d，然後用測試集進行測試，我們就能得到一個沒有針對測試集“特殊優化”過的誤差。比例爲：訓練集60%，交叉驗證集20%，測試集20%。

三種數據集的誤差如下：

四、診斷偏差與方差（Diagnosing Bias vs. Variance）

在這一節裏，我們要尋找多項式次數d與欠擬合、過擬合之間的關係。
首先，我們需要確認，偏差與方差是否是影響我們取得好結果的問題因素：
高偏差意味着欠擬合，是形容數據分散程度的，對象是單個模型
高方差意味着過擬合，形容數據跟我們期望的中心差得有多遠，對象是多個模型
我們需要找到一個好方法來平衡他們。

那麼我們根據下圖可以量化地判斷過擬合、欠擬合，以及找出參數d的最優解。

五、正則化和偏差、方差（Regularization and Bias/Variance）

這一節，我們要尋找正則化參數λ與偏差、方差的關係。
較大的λ：高偏差（欠擬合）
適中的λ：沒有大問題
較小的λ：高方差（過擬合）
一個大的λ值懲罰了所有θ參數，這極大地簡化了函數曲線，所以會導致欠擬合。

那麼我們根據下圖可以量化地判斷過擬合、欠擬合，以及找出lambda的最優解

六、學習曲線（Learning Curves）

使用學習曲線可以有效的判斷一個學習算法是否有偏差方差或者二者都有。

1、學習曲線的繪製：

繪製出訓練集和交叉驗證集的平均誤差平方和隨着樣本數量m變化而變化的曲線。

**
2、高偏差情況下的學習曲線**

結論：如果一個學習算法有高偏差，增加訓練樣本對改善算法表現無益。

**
3、高方差情況下的學習曲線**

結論：如果一個學習算法有高方差，增加訓練樣本對改善算法有幫助。

七、總結（revisited）

如何調試學習算法
1、獲得更多的訓練數據：修正高方差情況
2、選用更少的特徵：修正高方差
3、增加特徵量：修正高偏差
4、增加高次項：修正高偏差
5、減小正則化參數lambda的值：修正高偏差
6、增大正則化參數lambda的值：修正高方差

八、神經網絡的診斷

一般的，選擇左側較簡單的神經網絡，往往會出現欠擬合問題，計算量小
選擇右側較大的神經網絡結構，有時會出現過擬合問題，計算量大

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

高精度定時器——windows多媒體定時器、linux posix timer，封裝使用

週期性地執行一段代碼，while死循環+sleep是一種方式，但是精度在10ms以上。 while死循環裏如果沒有sleep，那麼會單獨佔用1個CPU核（即CPU佔用率很高）。 sleep即使設置爲1ms（見下方代碼），經示波器測試發現週期

2024-06-16 13:10:31

locust壓測的基本使用

locust壓測的基本使用這裏介紹的是在本地啓動locust以及做後續壓測的流程以及各個參數含義一、啓動locust 執行命令 locust -f **.py (python腳本) 如下圖：二、locust

2024-06-16 13:09:01

kettle從入門到精通第七十課 ETL之kettle kettle數據校驗，髒數據清洗輕鬆拿捏

場景：輸入在指定的錯誤(錯誤應涵蓋數據類型不匹配的情況)行數內，trans不報錯，但通過錯誤處理步驟捕捉，並記入文件，整個數據管線正常完成直至處理完最後一個輸入行。解決方案：使用步驟【數據檢驗】進行處理。這個步驟和常規的業務系統對接三方

2024-06-16 13:07:41

手把手帶你開發一套用戶權限系統，精確到按鈕級

在實際的軟件項目開發過程中，用戶權限控制可以說是所有運營系統中必不可少的一個重點功能，根據業務的複雜度，設計的時候可深可淺，但無論怎麼變化，設計的思路基本都是圍繞着用戶、角色、菜單這三個部分展開。如何設計一套可以精確到按鈕級別的用戶權限功

2024-06-16 13:07:21

Pixel Transformer：用像素代替補丁可以提升圖像分類精度

在快速發展的人工智能領域，ViTs已成爲各種計算機視覺任務的基礎模型。ViTs通過將圖像劃分爲小塊並將這些小塊作爲標記來處理圖像。6月剛發佈一篇論文，引入了一種新穎的方法，即像素級Transformers，它通過將單個像素視爲令牌來挑戰這種

2024-06-16 13:04:50

【IDEA】常用配置

1. 智能自動完成(智能提示)時忽略大小寫 2. 文件編碼設置爲UTF-8 3. 自動換行寬度設置 4. 顏色配置參考：https://www.cnblogs.com/joeblackzqq/p/16842280.html

2024-06-16 12:54:10

N網下載mod方法: 20240614親測好使

https://www.bilibili.com/video/BV1k8411575T/?vd_source=d68ed178f151e80fea1e02efd205802c

張博的博客

2024-06-15 14:23:44

Libgdx遊戲開發(3)——通過柏林噪音算法地圖隨機地形

原文: Libgdx遊戲開發(3)——通過柏林噪音算法地圖隨機地形-Stars-One的雜貨小窩在B站刷到了隨機地圖生成的視頻,隨手學習下並做下記錄注: 本篇使用javafx應用作演示,算是瞭解這個算法的使用,後續會再出篇libgdx

2024-06-15 14:23:14

電子行業MES系統流程圖梳理

2024-06-15 14:22:44

langchain Chatchat 學習實踐（四）——實現對Text2Sql的支持

這裏記錄一下langchain chatchat項目中的text2sql的實現思路。 1、SQLDatabaseChain鏈 SQLDatabaseChain是langchain框架自帶的數據庫自然語言交互工具，其內部通過sqlalchem

2024-06-15 14:19:14

python cuda12 安裝

pip install torch2.3.0 torchvision0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu121

2024-06-15 14:15:03

解決#error -- unsupported GNU version! gcc versions later than 11 are not supported!

ubuntu系統gcc版本太高導致cuda編譯報錯，可以手動切換gcc版本： #切換gcc版本 sudo update-alternatives --config gcc #切換g++版本 sudo update-alternatives

2024-06-15 14:14:43

Codeforces Global Round 26 D ''a'' String Problem（思維）

這題思維性很強，沒搞出來，純記錄一下。看題解看了很久纔看懂。代碼補充了幾個例子幫助理解。思路可以參考Codeforces Global Round 26 (A - E) - Lu_xZ - 博客園 (cnblogs.com) 1 #de

2024-06-15 14:14:03

前端使用 Konva 實現可視化設計器（15）- 自定義連接點、連接優化

前面，本示例實現了折線連接線，簡述了實現的思路和原理，也已知了一些缺陷。本章將處理一些缺陷的同時，實現支持連接點的自定義，一個節點可以定義多個連接點，最終可以滿足類似圖元接線的效果。請大家動動小手，給我一個免費的 Star 吧~ 大家如

2024-06-15 14:11:43

爲centos7系統添加新用戶並設置祕鑰登陸

要在CentOS 7系統上創建一個新用戶evan，並禁止其使用密碼登錄而僅允許密鑰登錄，你可以按照以下步驟操作：創建新用戶使用root賬號登錄到CentOS 7系統，然後運行以下命令來創建新用戶evan：

憤怒的碼農

2024-06-15 14:09:23

24小時熱門文章

最新文章

最新評論文章