看完了西瓜書的第一章,做一個簡單的筆記。
一、基本概念
屬性(attribute)/特徵(feature)-反映事件或對象在某方面的表現或性質的事項,屬性張成的空間稱爲“屬性空間”(attribute space)/“樣本空間”(sample space)。
示例(instance)/樣本(sample)-關於一個事件或對象的描述,每個示例由d個屬性描述可表示爲是d維樣本空間Y中的一個向量,,d稱爲樣本的維數(dimensionality),可以將一個示例稱爲一個特徵向量。
數據集(data set)-樣本組成的集合,表示包含m個示例的數據集。
訓練集(training set)-訓練/學習過程中使用的數據的集合,其中每個樣本稱爲一個訓練樣本(training sample)。
假設(hypothesis)與真實(ground-truth)-學得模型對應了關於數據的某種潛在規律,這種潛在規律自身成爲真實/真相,設X爲樣本空間,x爲樣本,y爲樣本的標記,則f(x)表示希望模型學得的真實,則h(x)表示一種假設。
樣例(example)-擁有了標記(label)信息的示例,標記是關於示例結果的信息,一般用表示第i個樣例,其中,Y是所有標記的集合稱爲標記空間(label space)/輸出空間。
分類(classification)/迴歸(regression)-預測的是離散值的學習任務稱爲分類,預測連續值的學習任務稱爲迴歸,只涉及兩個類別稱爲二分類(binary classification),通常稱其中一個爲正類(positive class)一個爲反類(nagative class),涉及多個類別稱爲多分類(multi-class classification)。
聚類(clustering)-將訓練集中的樣本分成若干組,每組稱爲一個“簇”(cluster),這些自動形成的簇可能對應一些潛在概念劃分。
根據訓練數據是否擁有標記信息,學習任務可大致劃分爲兩大類:“監督學習”(supervised learning)和“無監督學習”(unsupervised learning),分類和迴歸是前者的代表,而聚類則是後者的代表。
泛化(generalization)能力-學得模型適用於新樣本的能力。
假設空間(hypothesis space)-所有假設組成的空間,對於樣本空間X,所有可能的h(x)組成的空間就是假設空間,學習過程可以看作是在假設空間內的搜索,搜索過程中不斷的刪除與正例不一致的假設和反例一致的假設。
版本空間(version space)-與訓練集一致的假設集合,即版本空間內所有假設在訓練集上的輸出一致。
歸納偏好(inductive bias)-學習算法在學習過程中對某種類型假設的偏好,小概念(奧卡姆剃刀)。
NFL定理證明過程中對指示函數的求和用到了二項式定理的結論。
二、習題
1.1 模擬搜索過程,從正例的特例開始泛化,刪除與反例相同的假設即可得到版本空間,大小爲7。
1.2 不考慮冗餘時是所有假設的組合數,考慮冗餘則較難。
1.3 在匹配屬性儘可能多的情況下選擇匹配樣本多的假設。
1.4 對評估函數的求和爲常數,看到這一點證明便簡單了。
1.5 輸入分類、搜索匹配、結果分類、圖片搜索等環節。