機器學習-學習筆記（一）第一章基本概念

原創

Avlon

2018-08-24 17:57

看完了西瓜書的第一章，做一個簡單的筆記。

一、基本概念

屬性（attribute）/特徵（feature）-反映事件或對象在某方面的表現或性質的事項，屬性張成的空間稱爲“屬性空間”（attribute space）/“樣本空間”（sample space）。

示例（instance）/樣本（sample）-關於一個事件或對象的描述，每個示例由d個屬性描述可表示爲是d維樣本空間Y中的一個向量，，d稱爲樣本的維數（dimensionality），可以將一個示例稱爲一個特徵向量。

數據集（data set）-樣本組成的集合，表示包含m個示例的數據集。

訓練集（training set）-訓練/學習過程中使用的數據的集合，其中每個樣本稱爲一個訓練樣本（training sample）。

假設（hypothesis）與真實（ground-truth）-學得模型對應了關於數據的某種潛在規律，這種潛在規律自身成爲真實/真相，設X爲樣本空間，x爲樣本，y爲樣本的標記，則f(x)表示希望模型學得的真實，則h(x)表示一種假設。

樣例（example）-擁有了標記（label）信息的示例，標記是關於示例結果的信息，一般用表示第i個樣例，其中，Y是所有標記的集合稱爲標記空間（label space）/輸出空間。

分類（classification）/迴歸（regression）-預測的是離散值的學習任務稱爲分類，預測連續值的學習任務稱爲迴歸，只涉及兩個類別稱爲二分類（binary classification），通常稱其中一個爲正類（positive class）一個爲反類（nagative class），涉及多個類別稱爲多分類（multi-class classification）。

聚類（clustering）-將訓練集中的樣本分成若干組，每組稱爲一個“簇”（cluster），這些自動形成的簇可能對應一些潛在概念劃分。

根據訓練數據是否擁有標記信息，學習任務可大致劃分爲兩大類：“監督學習”（supervised learning）和“無監督學習”（unsupervised learning），分類和迴歸是前者的代表，而聚類則是後者的代表。

泛化（generalization）能力-學得模型適用於新樣本的能力。

假設空間（hypothesis space）-所有假設組成的空間，對於樣本空間X，所有可能的h(x)組成的空間就是假設空間，學習過程可以看作是在假設空間內的搜索，搜索過程中不斷的刪除與正例不一致的假設和反例一致的假設。

版本空間（version space）-與訓練集一致的假設集合，即版本空間內所有假設在訓練集上的輸出一致。

歸納偏好（inductive bias）-學習算法在學習過程中對某種類型假設的偏好，小概念（奧卡姆剃刀）。

NFL定理證明過程中對指示函數的求和用到了二項式定理的結論。

二、習題

1.1 模擬搜索過程，從正例的特例開始泛化，刪除與反例相同的假設即可得到版本空間，大小爲7。

1.2 不考慮冗餘時是所有假設的組合數，考慮冗餘則較難。

1.3 在匹配屬性儘可能多的情況下選擇匹配樣本多的假設。

1.4 對評估函數的求和爲常數，看到這一點證明便簡單了。

1.5 輸入分類、搜索匹配、結果分類、圖片搜索等環節。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習-學習筆記（一）第一章基本概念

EXCEL中下拉菜單中添加新選項或者刪除選項

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

Git使用經驗總結5-修改提交信息

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Git使用經驗總結4-撤回上一次本地提交

Java中止線程的方式

壓榨數據庫的真實處理速度

國內SaaS遇冷？未來企業服務賽道是否還有機會？

字節跳動提前批後臺，一面面經

opencv ImportError解決方法

機器學習作業 3-layer Forward Neural Networks（BP算法）在ex4Data數據集

機器學習筆記 perceptron（感知機）在ex4Data數據集上的實現

機器學習筆記 softmax的實現 ex4Data數據集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器學習-學習筆記（一）第一章 基本概念

機器學習-學習筆記（一）第一章基本概念