第1章 1
1.1 引言 1
本書用模型泛指從數據中學得的結果。
1.2 基本術語 2
- 數據集:記錄的集合
- 樣本(示例):每條記錄是關於一個事件或對象的描述
- 特徵(屬性):反映事件或對象在某方面的表現或性質的事項
- 屬性值:屬性的取值
- 屬性空間(樣本空間):屬性張成的空間
- 特徵向量:示例
- 維數:屬性描述的個數
- 學習(訓練):從數據中學得模型
- 訓練數據、訓練樣本、訓練集:訓練過程中使用的數據、其中每個樣本、訓練樣本組成的集合
- 假設:學得模型對應了關於數據的某種潛在的規律
- 泛化能力:學得模型適用於新樣本的能力
基本術語有很多,在學完後做幾個項目會對這些術語有更全面的認識。
1.3 假設空間 4
西瓜數據集:
假設空間:所有假設組成的集合
若“色澤”“根蒂”“敲聲”分別有3、3、3中可能取值,假設空間規模大小爲65:
(3+1)×(3+1)×(3+1)+1=65
3+1的3爲三個屬性,1爲全部屬性(*),後面+1的1爲空集。
版本空間:只保留了假設空間中與訓練數據集中正例一致的假設,由這些正確的假設構成的集合稱爲版本空間
通過所給的西瓜數據集對假設空間進行篩選,就可以得到版本空間。
簡單說,假設空間就是所有可能的情況,學習過程中通過訓練集對其進行篩選得到版本空間。因此,要想判斷的正確,就要全面、大量的訓練,以排除更多假設空間中的錯誤假設。錯誤假設越少,剩下的假設越少,就越有可能是正確假設,我們判斷的結果的正確概率越大。
如果還沒有理解,可以參考以下的博客,有更加詳細的例子:
1.4 歸納偏好 6
歸納偏好:機器學習算法在學習過程中對某種類型假設的偏好
訓練集外誤差:(公式1.1)
Eote(La∣X,f)=h∑x∈X−X∑P(x)I(h(x)=f(x))P(h∣X,La)
其中I(⋅)是指示函數,若·爲真取值1,否則取值0.
對所有可能的f按均勻分佈對誤差求和,有(公式1.2)
f∑Eote(La∣X,f)=f∑h∑x∈X−X∑P(x)I(h(x)=f(x))P(h∣X,La)=x∈X−X∑P(x)h∑P(h∣X,La)f∑I(h(x)=f(x))=x∈X−X∑P(x)h∑P(h∣X,La)212∣X∣=212∣X∣x∈X−X∑P(x)h∑P(h∣X,La)=2∣X∣−1x∈X−X∑P(x)⋅1
公式1.2指出總誤差與學習算法無關。(“沒有免費的午餐”定理,簡稱NFL定理)
1.5 發展歷程 10
講述了機器學習的由來與發展過程,有興趣的同學可以找一些課外資料深入瞭解。
1.6 應用現狀 13
機器學習與多學科融合,不僅在信息科學中有重要地位,還具有一定的自然科學探索色彩。
習題 19
(有空慢慢補)