第一章 緒論

1、基本術語

數據集
樣本
屬性or特徵
樣本空間
預測離散值–分類,二分類,多分類
預測連續值–迴歸

監督學習:分類、迴歸
無監督學習:聚類

泛化能力:generalization,模型適用於新樣本的能力
通常假設全樣本服從一個未知分佈D,每個樣本都是獨立地從這個分佈上採樣獲得的(獨立同分布),一般來說,訓練樣本越多,我們得到的關於D的信息越多,這樣通過學習獲得具有較強泛化能力的模型。

2、假設空間

歸納與演繹
歸納–枚舉法,從具體事實總結一般性規律
演繹–三段論,凡金屬都是導體,銅是金屬,所以銅是導體。
把學習過程看做一個在所有假設組成的空間中進行搜索,目標是找到與訓練集匹配的假設。可能存在多個與訓練集一致的假設集合,成爲“版本空間”

3、歸納偏好

在學習過程中對某種類型假設的偏好,例如“更平滑”,“更簡單”。
歸納偏好對應了學習算法本身所作出的關於“什麼樣的模型更好”的假設。
算法的歸納偏好是否與問題本身匹配,大多數時候直接決定了算法能夠取得好的性能。

重點:對於一個學習算法A,若它在一些問題上比學習算法B好,則必然存在另一些問題,B比A好。對任何算法都成立。

NFL定理(no free lunch theroem):假設所有問題出現的機會相同,即真實目標函數f是均勻分佈的,那麼總學習誤差與學習算法無關。

但實際情況並不是這樣。所以,脫離問題,空談論”什麼學習算法更好”毫無意義。
要談論算法的相對優劣,必須要針對具體的學習問題。

數據挖掘
數據庫領域的研究爲數據挖掘提供數據管理技術
機器學習和統計學的研究爲數據挖掘提供數據分析工具

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章