Machine Learning “for Dummies” (Part 1)

機器學習“傻瓜書”(一)

你可能已經聽說過“機器學習”(或者“數據挖掘”、“大數據”、”數據分析“、“雲計算”)但是你並不確切的瞭解它們究竟是神馬。你可能知道它們是一些計算機或數學的玩意兒,可能你已經使用過依賴機器學習的軟件,但對你而言它就像魔術。

機器學習應用廣泛,例如銀行用它探查詐騙或者預估風險,郵件管理器用它過濾垃圾郵件,醫生用它幫助診斷,生物學家用它分析DNA,谷歌、必應、雅虎用它回答你的問題,等等。

這個系列的文章主要基於示例,目的是讓你瞭解該技術工作的原理從而對機器學習有一定的概念。(譯者注:本系列文章是“傻瓜書”,低門檻知識普及)

主題分爲三個文章。第一篇介紹機器學習的主要任務:分類。第二篇展示兩個重要的用於分類的技術(算法)。最後一篇將會討論計算機科學家如何評估機器學習的品質。

定義

很難給機器學習一個實際的定義。姑且稱之爲可以用作預測或者幫助用戶理解複雜現象的程序項目吧。
機器學習是個很大的話題。爲了不至於太寬泛我會僅僅集中於一個主題:“分類”。“分類”只是機器學習的子領域,但是它是最重要的主題之一。當人們談論機器學習的時候,經常會提及分類。

分類

分類的思想是這樣的:我們有一些列觀察值。對機器學習而言觀察值一般是一個物體或一個情形的描述。爲了幫助理解,讓我們用一個常見的例子:鳶尾花。假設一個觀察值是單個花的描述:對每朵花而言,我們有4個度量:花瓣和花萼的寬和長(cm)。鳶尾花可能不是最令人感興趣的例子,但是它簡單實際便於理解機器學習。那麼現在告訴你鳶尾花例子被稱作“鳶尾花數據集”,它被廣泛用於機器學習的測試和理解分類算法。



每朵花的這4個度量被稱作“屬性”。在機器學習中,觀察值就是一系列的屬性。當我們對比觀察值的時候,其實是在對比屬性:例如,這朵花的花瓣比另一朵的要長。屬性可以表示不同的事物(例如,飛機的長度,風暴的持續時間,室內溫度,牆壁的顏色)。一般來說屬性被分爲兩類:數值或者類別。兩者的界限並不總是很清晰,但是當比較(<或>)一個屬性的不同值的時候,我們一般認爲這個屬性是數值,否則我們說它是個類別(例如花的顏色或者狗的種類)。
另外,對每個觀察(例如鳶尾花),我們有一個“類”。一個類是關於觀察的額外信息位。在我們的例子中,假設一個鳶尾花的類是這朵花的種類。爲了簡單,我們只關心3類鳶尾花:Setosa,Versicolour和Viginica。
現在我們有了一系列鳶尾花的觀察值。每個觀察有一系列屬性和類。具體可見下面的表格。類似這種表就稱作“數據集”。



我們假設,總體我們有150個鳶尾花觀測值,但是最後一朵我們並不知道它的類。我們可以問自己一個問題:鳶尾花的種類是和它的花瓣、花萼的尺寸有關的嗎?可能一類花的花瓣尺寸比另一類的長?換句話說,我們可以根據用149朵鳶尾花的屬性及類通過對比找到最後那朵花的類嗎?這就是典型的分類問題。正式點來表達就是:假設我們有一系列帶註釋的觀測值和一個無註釋的觀測值。我們怎麼找到無註釋項的類?

實際上,分類並不僅僅用於花朵種類等,也會用於深層次的情形,例如數碼相機用分類來找到圖片中的人臉,郵局用分類識別手寫地址,商人用分類預測市場行情。天氣學家用分類預測天氣等等。

所有這些例子的主要不同是他們的屬性。例如對於銀行客戶,屬性會是月收入,信用度等。對於醫院的患者屬性會是性別,健康級等。

下一篇將解釋如何進行分類!詳細介紹兩個廣泛使用的算法,盡情享受吧。

Machine Learning “for Dummies” (Part 2)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章