《機器學習》筆記

第一章:緒論

數據集 數據的集合。
實例/樣本: 數據集中的一條數據。
屬性/特徵: 事件或對象在某方面的性質。
屬性空間/樣本空間/輸入空間: 屬性所張成的空間。
特徵向量: 屬性集中的一條數據。
學習/訓練: 從數據中學的模型。
訓練數據/學習數據: 學習過程中所使用的數據。
假設: 學的模型對應數據的潛在規律。
真相/真實: 前者規律所對應的事實。
學習過程就是由假設逼近真相的過程。
學習器: 學習算法在給定數據和參數空間上的實例化。
測試樣本: 對所建模型進行測試的數據集。

  1. 根據訓練數據是否擁有標籤可以將其分爲監督學習和無監督學習。
  2. 分類和迴歸是監督學習的代表。
  3. 聚類則是後者的代表。
  4. 根據目前數據訓練出模型,學得得模型適用於新數據,體現出泛化得能力。
  5. 歸納和演繹,從特殊到一般,從一般到特殊。
  6. 奧卡姆的剃鬚刀:若有多個假設與觀察一致,則選最簡答的那一個。

第二章 :模型評估與選擇

經驗誤差與過擬合

我們想要得到的模型是對新數據也具備良好效果的模型,是一種通用的模型,如果對訓練數據過度,擬合效果非常好,甚至把訓練數據自身特點也加入模型中,這種稱爲過擬合,過擬合的對立是欠擬合。

第九章 : 聚類

  1. 聚類是將樣本集劃分成若干個互不相交的子集,即樣本簇。
  2. 簇內相似度高,簇間相似度低。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章