第一章緒論

數據集
樣本
屬性or特徵
樣本空間
預測離散值–分類，二分類，多分類
預測連續值–迴歸

監督學習：分類、迴歸
無監督學習：聚類

泛化能力：generalization，模型適用於新樣本的能力
通常假設全樣本服從一個未知分佈D，每個樣本都是獨立地從這個分佈上採樣獲得的（獨立同分布），一般來說，訓練樣本越多，我們得到的關於D的信息越多，這樣通過學習獲得具有較強泛化能力的模型。

歸納與演繹
歸納–枚舉法，從具體事實總結一般性規律
演繹–三段論，凡金屬都是導體，銅是金屬，所以銅是導體。
把學習過程看做一個在所有假設組成的空間中進行搜索，目標是找到與訓練集匹配的假設。可能存在多個與訓練集一致的假設集合，成爲“版本空間”

在學習過程中對某種類型假設的偏好，例如“更平滑”，“更簡單”。
歸納偏好對應了學習算法本身所作出的關於“什麼樣的模型更好”的假設。
算法的歸納偏好是否與問題本身匹配，大多數時候直接決定了算法能夠取得好的性能。

重點：對於一個學習算法A，若它在一些問題上比學習算法B好，則必然存在另一些問題，B比A好。對任何算法都成立。

NFL定理（no free lunch theroem）：假設所有問題出現的機會相同，即真實目標函數f是均勻分佈的，那麼總學習誤差與學習算法無關。

但實際情況並不是這樣。所以，脫離問題，空談論”什麼學習算法更好”毫無意義。
要談論算法的相對優劣，必須要針對具體的學習問題。

數據挖掘
–數據庫領域的研究爲數據挖掘提供數據管理技術
–機器學習和統計學的研究爲數據挖掘提供數據分析工具

第一章 緒論