1.0 機器學習基本術語

目錄

機器學習定義

模型與模式

數據集與示例(樣本,特徵向量)

維數

學習(訓練)

訓練樣本與訓練集

學習模型(學習器)

測試與測試樣本

假設與真相(真實)

標記與樣例

標記空間(輸出空間)

分類與迴歸

正類與反類(負類)

聚類

分類與聚類的區別

監督學習與無監督學習

泛化能力

獨立同分布

機械學習

版本空間

歸納偏好

奧卡姆剃刀

沒有免費的午餐定理(NFL)


機器學習定義

機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來玫善系統自身的性能在計算機系統中,"經驗"通常以"數據"形式存 在,因此?機器學習所研究的主要內容,是關於在計算機上從數據中產生"模 型" (model) 的算法,即"學習算法(learning algorithm). 有了學習算法,我 們把經驗數據提供給它,它就能基於這些數據產生模型;在面對新的情況時(例 如看到一個沒剖開的西瓜),模型會給我們提供相應的判斷(例如好瓜) .如果說 計算機科學是研究關於"算法"的學問,那麼類似的,可以說機器學習是研究 關於"學習算法"的學問.

模型與模式

“模型"泛指從數據中學得的結果,或者說是全局性結 果(例如一棵決策樹),而用"模式"指局部性結呆(例如一條規則).

數據集與示例(樣本,特徵向量)

“數據集”即一組數據的集合

“示例”又叫樣本、特徵向量,即是數據集中每條記錄,是關於一 個事件或對象的描述.

////此外還涉及屬性、屬性值、屬性值、樣本空間(輸入空間)較爲簡單就不一一贅述了,詳見西瓜書P2

維數

即特徵向量的屬性個數

學習(訓練)

從數據中學得模型的過程.

訓練樣本與訓練集

“訓練樣本”即訓練數據中的每一個樣本,“訓練集”即訓練樣本組成的集合.

學習模型(學習器)

可看作學習算法在給定數據和參數空 間上的實例化.學習算法通常有參數需 設置,使用不同的參數值 和(或)訓練數據,將產生 不同的結果.

測試與測試樣本

學得模型後,使用其母行預測的過程稱爲"測試" (testing) ,被預測的樣本 稱爲“測試樣本" (testing sample). 例如在學得 f 後,對測試例 x 可得到其預 測標記y= f(x).

假設與真相(真實)

“假設”即學得模型對應了關於數據 的某種潛在的規律. “真相”即這種潛在規律自身. 學習過程就是爲了找出或逼近真相.

標記與樣例

“標記” 即關於示例結果的信息,比如判定一個西瓜的好壞時,“好瓜”就是一個標記.  "樣例"即 擁有了標記信息的示例.

標記空間(輸出空間)

分類與迴歸

“分類”即欲預測的是離散值,例如"好瓜" "壞瓜"這一類學習任務.

“迴歸”即欲預測的是連續值. 例如西瓜成熟度 0.95 0.37 這一類類學習任務.

正類與反類(負類)

對只涉及兩個類別的"二分 類" (binary cl sification) 任務,通常稱其中一個類爲 "正類" (positive class)

另一個類爲"反類" (negative class).

聚類

即將訓練集中的樣本分成若干組,每組稱爲 個"簇" (cluster). 比如在識別西瓜問題中把西瓜分爲"淺色瓜" "深色瓜“,甚至“本地瓜”“外地瓜”,在聚類學習中,"淺色瓜" "本地瓜"這樣的概念我們事先是不知道的, 而且學習過程中使用的訓練樣本通常不擁有標記信息.

分類與聚類的區別

分類:是根據一些給定的已知類別標號的樣本,訓練某種學習機器(即得到某種目標函數),使它能夠對未知類別的樣本進行分類。屬於監督學習.

聚類:指事先並不知道任何樣本的類別標號,希望通過某種算法來把一組未知類別的樣本劃分成若干類別,聚類的時候,我們並不關心某一類是什麼,我們需要實現的目標只是把相似的東西聚到一起,屬於無監督學習。

監督學習與無監督學習

監督學習:從給定的訓練數據集中學習出一個函數(模型參數),當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求包括輸入輸出,也可以說是特徵和目標。訓練集中的目標是由人標註的。監督學習就是最常見的分類(注意和聚類區分)和迴歸. 是訓練神經網絡和決策樹的常見技術。

無監督學習:輸入數據沒有被標記,也沒有確定的結果。樣本數據類別未知,需要根據樣本間的相似性對樣本集進行聚類(clustering)試圖使類內差距最小化,類間差距最大化。通俗點將就是實際應用中,不少情況下無法預先知道樣本的標籤,也就是說沒有訓練樣本對應的類別,因而只能從原先沒有樣本標籤的樣本集開始學習分類器設計。至於兩者詳細區別可以參見https://blog.csdn.net/zb1165048017/article/details/48579677

泛化能力

學得模型適用於 新樣本的能力.

獨立同分布

通常假設樣本空間中全 體樣本服從 個未知"分佈" (distribution) D,我們獲得的每個樣本都是獨立地從這個分佈上採樣獲得的. 一般而言,訓練樣本越多,我們得到的關於 的信息越多,這樣就越有可能通過學習獲得具有強泛化能力的模型.

機械學習

"記住"訓練樣本,就是所謂的"機械學習" 或稱"死記硬背式 學習".

版本空間

現實問題中我們常面臨很大的假設空間,但學習過程是基於有限樣本訓練集進行的,因此,可能有多個假設與訓練集一致,即存在着一個與 訓練集一致的"假設集合",我們稱之爲"版本空間" .

歸納偏好

.機器學習 算法在學習過程中對某種類型假設的偏好.即對於哪一種情況更加重視.

奧卡姆剃刀

即"若有多個假設與觀察一致,則選最簡單的那個".如下圖有兩條曲線與有限樣本訓練集一致,因爲A更加平滑易於表示一般選取A曲線.

沒有免費的午餐定理(NFL)

對於一個學習算法a,若它在某 些問題上比學習算法b好,則必然存在另一些問題,在那裏島比 b比a好.有趣 的是,這個結論對任何算法均成立. 也就是說,無論學習算法a多聰明、學習算法b多笨拙,它們的期望性能竟 嚴格的相同! 但是請注意!!!NFL 定理有一個重要前提:所有"問題"出現的機會相 同、或所有問題同等重要.但實際情形並不是這樣.

NFL 定理最重要的寓意是讓我們清楚地認識到,脫離具體問題,空 泛地談論"什麼學習算法更好"毫無意義,因爲若考慮所有潛在的問題,貝。所 有學習算法都一樣好

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章