【學習筆記】【機器學習】第1章——緒論

原創

2020-07-05 03:50

第1章 1

1.1 引言 1

本書用模型泛指從數據中學得的結果。

1.2 基本術語 2

數據集：記錄的集合
樣本（示例）：每條記錄是關於一個事件或對象的描述
特徵（屬性）：反映事件或對象在某方面的表現或性質的事項
屬性值：屬性的取值
屬性空間（樣本空間）：屬性張成的空間
特徵向量：示例
維數：屬性描述的個數
學習（訓練）：從數據中學得模型
訓練數據、訓練樣本、訓練集：訓練過程中使用的數據、其中每個樣本、訓練樣本組成的集合
假設：學得模型對應了關於數據的某種潛在的規律
泛化能力：學得模型適用於新樣本的能力

基本術語有很多，在學完後做幾個項目會對這些術語有更全面的認識。

1.3 假設空間 4

西瓜數據集：

假設空間：所有假設組成的集合

若“色澤”“根蒂”“敲聲”分別有3、3、3中可能取值，假設空間規模大小爲65：
$\begin{aligned} (3+1)\times(3+1)\times(3+1)+1=65 \end{aligned}$

3+1的3爲三個屬性，1爲全部屬性（*），後面+1的1爲空集。

版本空間：只保留了假設空間中與訓練數據集中正例一致的假設，由這些正確的假設構成的集合稱爲版本空間

通過所給的西瓜數據集對假設空間進行篩選，就可以得到版本空間。

簡單說，假設空間就是所有可能的情況，學習過程中通過訓練集對其進行篩選得到版本空間。因此，要想判斷的正確，就要全面、大量的訓練，以排除更多假設空間中的錯誤假設。錯誤假設越少，剩下的假設越少，就越有可能是正確假設，我們判斷的結果的正確概率越大。

如果還沒有理解，可以參考以下的博客，有更加詳細的例子：

如何理解假設空間與版本空間？

1.4 歸納偏好 6

歸納偏好：機器學習算法在學習過程中對某種類型假設的偏好
訓練集外誤差：（公式1.1）
$E_{o t e}\left(\mathfrak{L}_{a} | X, f\right)=\sum_{h} \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \mathbb{I}(h(\boldsymbol{x}) \neq f(\boldsymbol{x})) P\left(h | X, \mathfrak{L}_{a}\right)$

其中 $\mathbb{I}(·)$ 是指示函數，若·爲真取值1，否則取值0.
對所有可能的f按均勻分佈對誤差求和，有（公式1.2）
$\begin{aligned} \sum_{f}E_{ote}(\mathfrak{L}_a\vert X,f) &= \sum_f\sum_h\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x})\mathbb{I}(h(\boldsymbol{x})\neq f(\boldsymbol{x}))P(h\vert X,\mathfrak{L}_a) \\ &=\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a)\sum_f\mathbb{I}(h(\boldsymbol{x})\neq f(\boldsymbol{x})) \\ &=\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a)\cfrac{1}{2}2^{\vert \mathcal{X} \vert} \\ &=\cfrac{1}{2}2^{\vert \mathcal{X} \vert}\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a) \\ &=2^{\vert \mathcal{X} \vert-1}\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \cdot 1\\ \end{aligned}$

公式1.2指出總誤差與學習算法無關。（“沒有免費的午餐”定理，簡稱NFL定理）

1.5 發展歷程 10

講述了機器學習的由來與發展過程，有興趣的同學可以找一些課外資料深入瞭解。

1.6 應用現狀 13

機器學習與多學科融合，不僅在信息科學中有重要地位，還具有一定的自然科學探索色彩。

習題 19

（有空慢慢補）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【學習筆記】【機器學習】第1章——緒論

第1章 1

1.1 引言 1

1.2 基本術語 2

1.3 假設空間 4

1.4 歸納偏好 6

1.5 發展歷程 10

1.6 應用現狀 13

習題 19

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

【學習筆記】【深度學習的數學】第0章——引言

【學習筆記】【統計學習方法】第1章——統計學習及監督學習概論

【學習筆記】【機器學習】第1章——緒論

【題解】【中國大學MOOC】（東北大學）大學計算機--Python算法實踐測驗——第七週：樹的實現

【題解】【中國大學MOOC】（東北大學）大學計算機--Python算法實踐測驗——第二週：分支程序設計

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結