機器學習-學習筆記(一)第一章 基本概念

    看完了西瓜書的第一章,做一個簡單的筆記。

 一、基本概念

屬性(attribute)/特徵(feature)-反映事件或對象在某方面的表現或性質的事項,屬性張成的空間稱爲“屬性空間”(attribute space)/“樣本空間”(sample space)。

示例(instance)/樣本(sample)-關於一個事件或對象的描述,每個示例由d個屬性描述可表示爲是d維樣本空間Y中的一個向量,,d稱爲樣本的維數(dimensionality),可以將一個示例稱爲一個特徵向量。

數據集(data set)-樣本組成的集合,表示包含m個示例的數據集。

訓練集(training set)-訓練/學習過程中使用的數據的集合,其中每個樣本稱爲一個訓練樣本(training sample)。

假設(hypothesis)與真實(ground-truth)-學得模型對應了關於數據的某種潛在規律,這種潛在規律自身成爲真實/真相,設X爲樣本空間,x爲樣本,y爲樣本的標記,則f(x)表示希望模型學得的真實,則h(x)表示一種假設。

樣例(example)-擁有了標記(label)信息的示例,標記是關於示例結果的信息,一般用表示第i個樣例,其中,Y是所有標記的集合稱爲標記空間(label space)/輸出空間。

分類(classification)/迴歸(regression)-預測的是離散值的學習任務稱爲分類,預測連續值的學習任務稱爲迴歸,只涉及兩個類別稱爲二分類(binary classification),通常稱其中一個爲正類(positive class)一個爲反類(nagative class),涉及多個類別稱爲多分類(multi-class classification)。

聚類(clustering)-將訓練集中的樣本分成若干組,每組稱爲一個“簇”(cluster),這些自動形成的簇可能對應一些潛在概念劃分。

根據訓練數據是否擁有標記信息,學習任務可大致劃分爲兩大類:“監督學習”(supervised learning)“無監督學習”(unsupervised learning),分類和迴歸是前者的代表,而聚類則是後者的代表。

泛化(generalization)能力-學得模型適用於新樣本的能力。

假設空間(hypothesis space)-所有假設組成的空間,對於樣本空間X,所有可能的h(x)組成的空間就是假設空間,學習過程可以看作是在假設空間內的搜索,搜索過程中不斷的刪除與正例不一致的假設和反例一致的假設。

版本空間(version space)-與訓練集一致的假設集合,即版本空間內所有假設在訓練集上的輸出一致。

歸納偏好(inductive bias)-學習算法在學習過程中對某種類型假設的偏好,小概念(奧卡姆剃刀)。

NFL定理證明過程中對指示函數的求和用到了二項式定理的結論。

二、習題

1.1    模擬搜索過程,從正例的特例開始泛化,刪除與反例相同的假設即可得到版本空間,大小爲7。

1.2    不考慮冗餘時是所有假設的組合數,考慮冗餘則較難。

1.3    在匹配屬性儘可能多的情況下選擇匹配樣本多的假設。

1.4    對評估函數的求和爲常數,看到這一點證明便簡單了。

1.5    輸入分類、搜索匹配、結果分類、圖片搜索等環節。



    

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章