西瓜書讀書筆記(第一章)

引言部分:

    首先引言部分說到了,爲什麼看到微溼路面,感到和風,看到晚霞就判斷明天是好天氣,爲什麼一個西瓜色澤青綠,根蒂捲縮,敲聲渾濁就判斷是好瓜,是因爲在我們生活中積累了這樣的經驗,通過對經驗的利用,我們就能對出現的新情況作出判斷。而機器學習就是要機器通過對經驗的學習,對新出現的情況作出判斷。

其中“經驗”在計算機中以數據的形式存在,因此機器學習研究的內容,是關於這些數據的“模型”算法,也就是學習算法(learning algorithm)有了學習算法,再提供經驗數據,就能產生基於這些經驗數據的模型,通過模型,我們可以對新情況(如:一個沒有剖開的瓜)作出判斷(瓜的好壞)

基本術語:

    進行機器學習,首先我們要有數據。(個人見解 對一個實體進行學習,必須要知道它的屬性集)對於西瓜 我們可能要收集

它的色澤,根蒂,敲聲等數據,這些數據的集合叫做數據集(data set) 集合中的每一條記錄是關於一個對象(如:西瓜)的描述,我們稱爲一個“示例”(instance)或一個樣本(sample),我們把實體或對象在某方面的具體表現(如:西瓜的色澤)稱爲屬性(attribute)或特徵(feature),屬性具體的取值稱爲屬性值(attribute value),屬性張成的空間稱爲屬性空間(attribute space)或樣本空間(sample space)。假如我們把西瓜的三個屬性分別對應三個座標,那麼每個西瓜都對應一個三維的座標位置,我們把這樣一個示例(一組屬性的元祖)稱之爲特徵向量(feature vector)

從數據中學得模型的過程我們稱爲“學習”(learning)或者“訓練”(training)過程通過某個學習算法完成,訓練用到的數據稱爲訓練數據(training data),每一個參與訓練的樣本構成了“訓練集”(training set) 學得的模型對應了關於數據的某種潛在的規律,也稱爲“假設”(hypothesis)

同時我們要驗證我們學得的模型或得出的假設是否接近真相(ground-truth)我們就需要建立一個預測(prediction)模型

需要獲得訓練樣本的“結果”信息如((色澤=青綠,根蒂=捲縮,敲聲=渾濁),好瓜)這裏的好瓜就是結果,我們稱爲“標籤”(label),有了標籤的示例,稱爲樣例(example) 用(xi,yi)表示第i個樣例,yi∈Y是示例xi的標籤,Y是所以標籤的集合,稱爲“標記空間”(label space)

分類:

如果我們預測的結果是離散的 比如(好瓜,壞瓜)此類學習任務稱爲“分類”(classification),如果結果爲連續的,稱爲“迴歸”(regression)學得模型後,使用它進行預測的過程稱爲“測試”(testing),用來預測的樣本稱爲“測試樣本” 例如 用學得的模型f,對測試例x進行預測 預測標記記爲否f(x),假如我們學習的樣本沒有標記信息,此類學習任務稱爲“聚類”(clustering) 根據訓練數據是否帶有標記 學習任務可以分爲兩類 1.帶標籤的稱爲“監督學習”(supervised learning) “監督學習”又分爲“分類”(classification)和“迴歸”(regression),2.“無監督學習”(unsupervised learning)如“聚類”(clustering)。

當然,機器學習的目標是使得我們學習的模型能很好的適應“新樣本”,學得模型對“新樣本”的適應能力稱爲“泛化”(generalization)能力。通常來說,假設空間中的全體樣本服從一個未知的分佈(distribution)D,我們獲得的樣本是獨立的從這個樣本中採樣獲得的,即“獨立同分布”(independent and identically distribution,即i.i.d)

假設空間:

歸納(induction)和演繹(deduction)是科學推理的兩大基本手段,歸納是從特殊到一般的“泛化”(generation)的過程

而演繹是一般到特殊的“特化”(specialization)過程,從“樣例”中學習就是一個歸納的過程,也稱爲“歸納學習”

我們把學習的過程看做是一個在所有的假設(hypothesis)空間搜索的過程,搜索目標是找到與“訓練集”匹配(fit)的假設,假設的表示一旦確定,假設的空間規模也就確定了。在現實生活中我們往往面臨着很大的假設空間,但是學習過程是基於有限的樣本進行的,因此,可能有多個假設與訓練集一致,即存在一個與訓練集一致的假設空間,也稱爲“版本空間”(version space)

歸納偏好:

我們通過學習得到的模型對應了假設空間中的一個假設,假設空間或者說版本空間給我們帶來的麻煩,假如有多個與訓練集一致的假設,但是他們在面臨新樣本是產生了不同的預測,我們該如何選擇?

這多個與訓練集一致的假設其實它們自身會用某種偏好,對於西瓜的預測,有的假設更相信色澤,有的假設更相信敲聲,有的假設更相信根蒂等等。不同假設的不同偏好稱爲歸納偏好(induction bias)

假如我們將訓練樣例(xi,yi)在座標圖中作處理,會有多條曲線經過這些點,這些曲線的軌跡並不一致。這些曲線就對應着與訓練集一致的假設。

那麼有沒有一般性的原則來從版本空間選擇假設作爲我們學得的模型?

“奧卡姆剃刀”(Occam's razor)是一種常用的原則,即從多個假設的選擇最簡單的假設。比如最平滑的的預測曲線。

然而,我們需要注意的是“奧卡姆剃刀”本身存在不同的詮釋,什麼更簡單本來就是不明確的,也就是說,需要在特定的標準下,也就是在特定的場合下我們才能評判那個假設更“簡單”,即算法的歸納偏好要與問題匹配。

“天下沒有免費的午餐”定理(NFL)指出不同的算法的總誤差是相同的。不過NFL定理是基於f的均勻分佈,現實實際情況並非如此,因此,算法的歸納偏好要與問題匹配。

發展歷程什麼的就不寫了。

新手,誤噴。

如有錯誤,請批評指正。

(第二章等我看完第二章再更)





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章