【學習筆記】【機器學習】第1章——緒論

第1章 1

1.1 引言 1

本書用模型泛指從數據中學得的結果。

1.2 基本術語 2

  • 數據集:記錄的集合
  • 樣本(示例):每條記錄是關於一個事件或對象的描述
  • 特徵(屬性):反映事件或對象在某方面的表現或性質的事項
  • 屬性值:屬性的取值
  • 屬性空間(樣本空間):屬性張成的空間
  • 特徵向量:示例
  • 維數:屬性描述的個數
  • 學習(訓練):從數據中學得模型
  • 訓練數據、訓練樣本、訓練集:訓練過程中使用的數據、其中每個樣本、訓練樣本組成的集合
  • 假設:學得模型對應了關於數據的某種潛在的規律
  • 泛化能力:學得模型適用於新樣本的能力

基本術語有很多,在學完後做幾個項目會對這些術語有更全面的認識。

1.3 假設空間 4

西瓜數據集:
在這裏插入圖片描述
假設空間:所有假設組成的集合
在這裏插入圖片描述
若“色澤”“根蒂”“敲聲”分別有3、3、3中可能取值,假設空間規模大小爲65:
(3+1)×(3+1)×(3+1)+1=65\begin{aligned} (3+1)\times(3+1)\times(3+1)+1=65 \end{aligned}

3+1的3爲三個屬性,1爲全部屬性(*),後面+1的1爲空集。

版本空間:只保留了假設空間中與訓練數據集中正例一致的假設,由這些正確的假設構成的集合稱爲版本空間
在這裏插入圖片描述
通過所給的西瓜數據集對假設空間進行篩選,就可以得到版本空間。

簡單說,假設空間就是所有可能的情況,學習過程中通過訓練集對其進行篩選得到版本空間。因此,要想判斷的正確,就要全面、大量的訓練,以排除更多假設空間中的錯誤假設。錯誤假設越少,剩下的假設越少,就越有可能是正確假設,我們判斷的結果的正確概率越大。

如果還沒有理解,可以參考以下的博客,有更加詳細的例子:

1.4 歸納偏好 6

歸納偏好:機器學習算法在學習過程中對某種類型假設的偏好
訓練集外誤差:(公式1.1)
Eote(LaX,f)=hxXXP(x)I(h(x)f(x))P(hX,La)E_{o t e}\left(\mathfrak{L}_{a} | X, f\right)=\sum_{h} \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \mathbb{I}(h(\boldsymbol{x}) \neq f(\boldsymbol{x})) P\left(h | X, \mathfrak{L}_{a}\right)

其中I()\mathbb{I}(·)是指示函數,若·爲真取值1,否則取值0.
對所有可能的f按均勻分佈對誤差求和,有(公式1.2)
fEote(LaX,f)=fhxXXP(x)I(h(x)f(x))P(hX,La)=xXXP(x)hP(hX,La)fI(h(x)f(x))=xXXP(x)hP(hX,La)122X=122XxXXP(x)hP(hX,La)=2X1xXXP(x)1\begin{aligned} \sum_{f}E_{ote}(\mathfrak{L}_a\vert X,f) &= \sum_f\sum_h\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x})\mathbb{I}(h(\boldsymbol{x})\neq f(\boldsymbol{x}))P(h\vert X,\mathfrak{L}_a) \\ &=\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a)\sum_f\mathbb{I}(h(\boldsymbol{x})\neq f(\boldsymbol{x})) \\ &=\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a)\cfrac{1}{2}2^{\vert \mathcal{X} \vert} \\ &=\cfrac{1}{2}2^{\vert \mathcal{X} \vert}\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a) \\ &=2^{\vert \mathcal{X} \vert-1}\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \cdot 1\\ \end{aligned}

公式1.2指出總誤差與學習算法無關。(“沒有免費的午餐”定理,簡稱NFL定理)

1.5 發展歷程 10

講述了機器學習的由來與發展過程,有興趣的同學可以找一些課外資料深入瞭解。

1.6 應用現狀 13

機器學習與多學科融合,不僅在信息科學中有重要地位,還具有一定的自然科學探索色彩。

習題 19

(有空慢慢補)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章