機器學習之應用機器學習的建議

原創

2019-03-10 03:06

#Deciding what to try next？（決定下一步做什麼）

如何改進算法？

使用更多訓練樣本（但有時候沒有用）
嘗試使用更少的特徵（仔細挑選一小部分來防止過擬合）
使用更多特徵
增加多項式特徵
增加或減小正則化參數λ

#Evaluationg a hypothesis（評估假設）

僅僅因爲一個假設具有很小的訓練誤差並不能說明它一定是一個好的假設。

#評價假設的標準方法：

將數據分成兩部分，第一部分成爲訓練集，第二部分成爲測試集；

典型的分割方法是按照7：3的比例（隨機）。

1、對訓練集進行學習得到參數θ，即最小化訓練誤差J(θ)

2、計算出測試誤差，實際上是測試集的平方誤差的平均值

*misclassification error（錯誤分類）/zero one misclassification error（0/1分類錯誤）：定義測試誤差

#Model selection & training/validation/test sets（模型選擇&訓練、驗證、測試集）

訓練誤差並不能很好地估計出實際的generalization error（泛化錯誤），即該假設對新樣本的泛化能力。

如果你想選擇一個模型，即選擇一個degree of polynomial（多項式次數），從幾個中選出來一個擬合這個模型並且估計這個擬合好的模型假設對新樣本的泛化能力：

首先選擇第一個模型，然後最小化訓練誤差，得到一個參數向量θ；

然後再選擇第二個模型擬合訓練集，得到另外一個參數向量θ；

以此類推，然後對所有這些模型求出測試集誤差，爲了從這些模型中選出最好的一個，要看哪個模型有最小的測試誤差；

*我們的參數向量很可能是對泛化誤差過於樂觀的估計，因爲我是用測試集擬合得到的參數d，再在測試集上評估假設就不公平了，因爲我用測試集擬合得到的參數，用測試集選擇了多項式的次數，所以假設很可能對於測試集的表現好過對於新的它沒見過的樣本，而後者纔是我們真正關心的。

爲了解決模型選擇出現的問題，通常採用如下方法：

把數據分爲三個部分，training set（測試集）、cross validation set（交叉驗證集cv）、test set（測試集），典型比例是6：2：2。

要用驗證集（交叉驗證集）來選擇模型而不是原來的測試集：

1、選取第一種假設，最小化代價函數，以此類推；

2、用交叉驗證集來測試，而不像原來一樣用測試集來測試這些假設；

3、選擇交叉驗證誤差最小的那個假設作爲模型。

*省下測試集用來衡量或者估計算法選出的模型的泛化誤差。

#Diagnosing bias VS variance（診斷偏差VS方差）

即underfitting（欠擬合）問題 VS overfitting（過擬合）問題

如果算法有bias（偏差）問題，則訓練集誤差會比較大，交叉驗證誤差也會很大，接近訓練誤差；
如果算法有variance（方差）問題，則訓練誤差很小，交叉驗證誤差遠大於訓練集誤差。

#Regularization & bias/variance（正則化&偏差、方差）

如何自動地選擇出一個最合適的正則化參數λ的值？

對於訓練集、驗證集誤差的定義都是平均誤差平方和或者是不使用正則化項時訓練集驗證集和測試集的平均誤差平方和的一半。

用交叉驗證集來評價，選交叉驗證誤差最小的那個模型作爲最終選擇。

當改變正則化參數λ時，交叉驗證誤差和訓練誤差怎麼變化：

#Learning curves（學習曲線）

判斷某個學習算法是否處於偏差、方差問題或是二者皆有。

繪製訓練集的平均誤差平方和，或者交叉驗證集的平均誤差平方和：

#總結

收集更多的訓練集數據：對於解決high variance（高方差）問題有幫助；
減少特徵數量：對high variance（高方差）問題有效；
增加特徵：通常是解決high bias（高偏差）問題的一個方法；
增加多項式特徵：也屬於增加特徵；
增大λ：可修正high bias（高偏差）問題；
減小λ：可修正high variance（高方差）問題；

簡單神經網絡參數不多，容易欠擬合，但最大優勢是計算量小；
複雜神經網絡參數較多，容易過擬合，可使用正則化來修正。

PS.內容爲學習吳恩達老師機器學習的筆記【https://study.163.com/course/introduction/1004570029.htm】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度學習之tensorflow（六）

#RNN（Recurrent Neural Network 循環神經網絡） BP神經網絡沒有反饋迴路，而RNN有。 RNN存在梯度消失的問題，隨時間的流逝信號會不斷地衰弱： #LSTM（Long Short Term Memor

2020-07-07 11:22:27

NoteBook 安裝步驟教程

NoteBook安裝步驟說明

2020-06-22 18:53:16

anaconda 的notebook無法shutdown

找到notebook的相關文件將其中的改成四個parent(), 改之前是三個parent()

透明的红萝卜221

2020-07-07 06:38:55

jupyter使用方法

jupyter使用方法環境：Linux (Ubuntu 16.04) 1. 下載： jupyter官網有下載方式。 use anaconda or pip to install jupyter for pip: at

2020-07-06 07:22:02

更改jupyter notebook默認工作目錄

當我們安裝完jupyter notebook的時候，如何需要更換默認的工作目錄： 1，打開windows命令行窗口，win+R快捷鍵輸入cmd打開； 2，在命令行窗口中輸入jupyter notebook --generate-confi

2020-07-05 17:40:31

一分鐘搞定jupyter notebook文件轉換成pdf（史上最簡單的方法）

1）設置電腦的默認瀏覽器爲谷歌瀏覽器（chorme) 設置方法鏈接，https://support.microsoft.com/zh-cn/help/4028606/windows-10-change-your-default-brows

2020-07-01 23:31:06

2202內存超頻穩定參數

關於2202的性能內存是其瓶頸，將原廠的333內存用A64Tweaker超頻的話可以大幅度提高性能（內存帶寬和3D性能提升40%左右），但超後的穩定性

2020-07-01 13:24:49

轉接

rtsp://admin:[email protected]:554/h264/ch1/main/ac_stream https://gstreamer.freedesktop.org/documentation/tutori

2020-06-26 01:40:48

AI工具：Anaconda中Jupyter不能import已安裝module問題解決

jupyter模式下寫代碼時,通過pip install package命令行安裝package完成之後,無法在jupyter模式下import ，這是個通用的問題，我這裏遇到的是import jieba，可能import 別的

maoyuanming0806

2020-06-25 06:52:09

tkinter窗口切換

方法1：按鈕+Frame 步驟：1.1創建主桌面 import tkinter as tk root = tk.Tk() 1.2 創建不同的Frame，相當於不同的桌布，分別用來創建不同的窗口 face1 = t

来路与归途

2020-06-23 11:36:35

什麼是產品運營？文中這個舉例感覺讓我思路明朗了許多

想象你是周杰倫的經紀人，但是他還不出名你是不是要讓他通過各種途徑各種渠道增加曝光度？哪怕是放出一些負面消息或者緋聞（市場和渠道）增加曝光度後，是不是要越來越多的人喜歡周杰倫，增加越來越多的粉絲（用戶）粉絲量夠多了，是不是要想辦法開

2020-06-22 19:37:25

用於產生一致輸出的矢量繪圖庫——cairo

寫在文章前面：cairo 的目標是以跨平臺的方式在打印機和屏幕上產生相同的輸出，它正在成爲 Linux® 圖形領域的重要軟件。GNOME、GTK+、Pango 等許多軟件已經使用了它提供的 2D 功能。本文參考自IBM技術主題

2020-06-22 18:44:30

windows桌面製作notebook快捷方式

在cmd命令行中使用以下命令運行Jupyter：jupyter notebook 每次操作都要切入cmd再輸入命令，作爲程序員，這樣是不是太繁瑣了下邊我教大家在電腦上做個快捷圖標 1.在桌面上新建一個啓動notebook的 txt文件

2020-06-21 08:08:29

Anaconda 修改 Jupyter Notebook 文件默認保存位置

爲了方便管理 Jupyter Notebook 上創建的文件，我們一般需要修改安裝 Anaconda 時 Jupyter Notebook 默認文件保存位置！ 1、Jupyter Notebook 一般默認保存位置是（以 Wind

2020-06-16 15:55:32

研發工程師手把手教你實踐Notebook開發方式

Jupyter Notebook是基於網頁的用於交互計算的應用程序，可以被應用於全過程計算：開發、文檔編寫、運行代碼和展示結果。Notebook這種交互方式特別適用於機器學習的學習和訓練，現在越來越多的廠商提供基於Notebook

2020-06-16 14:57:35

24小時熱門文章

最新文章

最新評論文章