Chapter 6 應用機器學習的建議

0. 版權聲明

  • machine learning 系列筆記來源於Andrew Ng 教授在 Coursera 網站上所授課程《machine learning》1
  • 該系列筆記不以盈利爲目的,僅用於個人學習、課後複習及交流討論;
  • 如有侵權,請與本人聯繫([email protected]),經覈實後即刻刪除;
  • 轉載請註明出處;

1. 評估學習算法

1.1 評估假設函數

  • 一般按照 7:3 的比例將樣本劃分爲訓練集、測試集;
    • 若需要交叉驗證集,則按 6:2:2 的比例將樣本劃分爲訓練集、交叉驗證集(cross validation set)、測試集;
    • 按比例劃分時,應隨機抽取,確保訓練集、測試集中的數據均服從某種分佈規律;
  • 測試誤差舉例:在線性迴歸中應用平方誤差時,Jtest(θ)=12mtesti=1mtest(hθ(xtest(i))ytest(i))2J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}(h_{\theta}(x_{test}^{(i)})-y_{test}^{(i)})^{2}
  • 0/1 錯分類率(誤分類率):
    • err(hΘ(x),y)={1hΘ0.5,y=0;hΘ<0.5,y=1;0otherwiseerr(h_{\Theta}(x),y)=\begin{cases}1 & h_{\Theta} \geq 0.5,y=0; h_{\Theta} < 0.5,y=1; \\0 & otherwise\end{cases}
    • Test Error = 1mtesti=1mtesterr(hΘ(xtest(i)),ytest(i))\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}err(h_{\Theta}(x_{test}^{(i)}),y_{test}^{(i)})
    • 0/1 錯分類率(誤分類率) = \frac{被錯誤分類的測試樣本數}{測試樣本總數}
  • 評價假設函數的步驟:
    • 從訓練集中學得 Θ\Theta
    • 將求得的參數值應用於測試集中,計算測試誤差 Jtest(Θ)J_{test}(\Theta)

n. reference


  1. https://www.coursera.org/learn/machine-learning/home/welcome ↩︎ ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章