(本文僅爲個人方便複習回顧)
機器學習是目前信息技術中最激動人心的方向之一,其應用已經深入到生活的各個層面且與普通人的日常生活密切相關。本文爲清華大學最新出版的《機器學習》教材的Learning Notes,書作者是南京大學周志華教授,多個大陸首位彰顯其學術奢華。本篇主要介紹了該教材前兩個章節的知識點以及自己一點淺陋的理解。
1 緒論
傍晚小街路面上沁出微雨後的溼潤,和熙的細風吹來,擡頭看看天邊的晚霞,嗯,明天又是一個好天氣。走到水果攤旁,挑了個根蒂蜷縮、敲起來聲音濁響的青綠西瓜,一邊滿心期待着皮薄肉厚瓢甜的爽落感,一邊愉快地想着,這學期狠下了工夫,基礎概念弄得清清楚楚,算法作業也是信手拈來,這門課成績一定差不了!哈哈,也希望自己這學期的machine learning課程取得一個好成績!
1.1 機器學習的定義
正如我們根據過去的經驗來判斷明天的天氣,喫貨們希望從購買經驗中挑選一個好瓜,那能不能讓計算機幫助人類來實現這個呢?機器學習正是這樣的一門學科,人的“經驗”對應計算機中的“數據”,讓計算機來學習這些經驗數據,生成一個算法模型,在面對新的情況中,計算機便能作出有效的判斷,這便是機器學習。
另一本經典教材的作者Mitchell給出了一個形式化的定義,假設:
- P:計算機程序在某任務類T上的性能。
- T:計算機程序希望實現的任務類。
- E:表示經驗,即歷史的數據集。
若該計算機程序通過利用經驗E在任務T上獲得了性能P的改善,則稱該程序對E進行了學習。
1.2 機器學習的一些基本術語
假設我們收集了一批西瓜的數據,例如:(色澤=青綠;根蒂=蜷縮;敲聲=濁響), (色澤=烏黑;根蒂=稍蜷;敲聲=沉悶), (色澤=淺自;根蒂=硬挺;敲聲=清脆)……每對括號內是一個西瓜的記錄,定義:
-
所有記錄的集合爲:數據集。
-
每一條記錄爲:一個實例(instance)或樣本(sample)。
-
例如:色澤或敲聲,單個的特點爲特徵(feature)或屬性(attribute)。
-
對於一條記錄,如果在座標軸上表示,每個西瓜都可以用座標軸中的一個點表示,一個點也是一個向量,例如(青綠,蜷縮,濁響),即每個西瓜爲:一個特徵向量(feature vector)。
-
一個樣本的特徵數爲:維數(dimensionality),該西瓜的例子維數爲3,當維數非常大時,也就是現在說的“維數災難”。
計算機程序學習經驗數據生成算法模型的過程中,每一條記錄稱爲一個“訓練樣本”,同時在訓練好模型後,我們希望使用新的樣本來測試模型的效果,則每一個新的樣本稱爲一個“測試樣本”。定義:
-
所有訓練樣本的集合爲:訓練集(trainning set),[特殊]。
-
所有測試樣本的集合爲:測試集(test set),[一般]。
-
機器學習出來的模型適用於新樣本的能力爲:泛化能力(generalization),即從特殊到一般。
西瓜的例子中,我們是想計算機通過學習西瓜的特徵數據,訓練出一個決策模型,來判斷一個新的西瓜是否是好瓜。可以得知我們預測的是:西瓜是好是壞,即好瓜與差瓜兩種,是離散值。同樣地,也有通過歷年的人口數據,來預測未來的人口數量,人口數量則是連續值。定義:
-
預測值爲離散值的問題爲:分類(classification)。
-
預測值爲連續值的問題爲:迴歸(regression)。
我們預測西瓜是否是好瓜的過程中,很明顯對於訓練集中的西瓜,我們事先已經知道了該瓜是否是好瓜,學習器通過學習這些好瓜或差瓜的特徵,從而總結出規律,即訓練集中的西瓜我們都做了標記,稱爲標記信息。但也有沒有標記信息的情形,例如:我們想將一堆西瓜根據特徵分成兩個小堆,使得某一堆的西瓜儘可能相似,即都是好瓜或差瓜,對於這種問題,我們事先並不知道西瓜的好壞,樣本沒有標記信息。定義:
-
訓練數據有標記信息的學習任務爲:監督學習(supervised learning),容易知道上面所描述的分類和迴歸都是監督學習的範疇。
-
訓練數據沒有標記信息的學習任務爲:無監督學習(unsupervised learning),常見的有聚類和關聯規則。