西瓜書筆記

第一章 緒論

1、根據西瓜的色澤、根蒂、敲聲判斷一個瓜是好還是壞,這個是分類。判斷西瓜的成熟度是0.95、0.37還是其它。這個是迴歸

2、根據訓練數據是否擁有標記信息,學習任務可大致劃分爲兩大類:“監督學習”(supervised learning)和“無監督學習”(unsupervised learning),分類和迴歸是前者的代表,而聚類則是後者的代表。

3、歸納偏好可看作學習算法自身在一個可能很龐大的假設空間中對假設進行選擇的啓發式或“價值觀”,那麼,有沒有一般性的原則來引導算法確立“正確的”偏好呢?“奧卡姆剃刀“是一種常用的、自然科學研究中最基本的原則,即”若有多個假設與觀察一直,則選最簡單的那個“,如果採用這個原則,並且假設我們認爲”更平滑“意味着”更簡單“(例如曲線A更易於描述,而曲線B則要複雜很多,則我們會自然地偏好”平滑“的曲線A。奧卡姆剃刀並非唯一可行的原則。

                                          

第二章 模型評估與選擇

1、有很多種因素可能導致過擬合,其中最常見的情況是由於學習能力過於強大,以至於把訓練樣本所包含的不太一般的特性都學到了,而欠擬合則通常是由於學習能力低下而造成的。

2、我們通過實驗測試來對學習器的泛化誤差進行評估並進而做出選擇。爲此,需要使用一個測試集來測試學習器對新樣本的判別能力,然後以測試集上的測試誤差作爲泛化誤差的近似。通常我們假設測試樣本也是從樣本真實分佈中獨立同分布採樣而得。但需注意的是,測試集應該儘可能與訓練集互斥,即測試樣本儘量不在訓練集中出現、未在訓練過程中使用過。

3、通過對數據集D進行適當處理,從中產生出訓練集S和測試集T,有下面幾種常見的做法:1、留出發;2、交叉驗證法(k折交叉驗證,K最常用的取值是10);3、自助法。



第三章 線性模型

1、均方誤差有非常好的幾何意義,它對應了常用的歐幾里得距離或簡稱“歐式距離”。基於均方誤差最小化來進行模型求解的方法成爲“最小二乘法”。在線性迴歸中,最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐式距離之和最小。

第四章 決策樹


信息增益

                          

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章