機器學習“傻瓜書”(一)
你可能已經聽說過“機器學習”(或者“數據挖掘”、“大數據”、”數據分析“、“雲計算”)但是你並不確切的瞭解它們究竟是神馬。你可能知道它們是一些計算機或數學的玩意兒,可能你已經使用過依賴機器學習的軟件,但對你而言它就像魔術。
機器學習應用廣泛,例如銀行用它探查詐騙或者預估風險,郵件管理器用它過濾垃圾郵件,醫生用它幫助診斷,生物學家用它分析DNA,谷歌、必應、雅虎用它回答你的問題,等等。
這個系列的文章主要基於示例,目的是讓你瞭解該技術工作的原理從而對機器學習有一定的概念。(譯者注:本系列文章是“傻瓜書”,低門檻知識普及)
主題分爲三個文章。第一篇介紹機器學習的主要任務:分類。第二篇展示兩個重要的用於分類的技術(算法)。最後一篇將會討論計算機科學家如何評估機器學習的品質。
定義
分類
我們假設,總體我們有150個鳶尾花觀測值,但是最後一朵我們並不知道它的類。我們可以問自己一個問題:鳶尾花的種類是和它的花瓣、花萼的尺寸有關的嗎?可能一類花的花瓣尺寸比另一類的長?換句話說,我們可以根據用149朵鳶尾花的屬性及類通過對比找到最後那朵花的類嗎?這就是典型的分類問題。正式點來表達就是:假設我們有一系列帶註釋的觀測值和一個無註釋的觀測值。我們怎麼找到無註釋項的類?
實際上,分類並不僅僅用於花朵種類等,也會用於深層次的情形,例如數碼相機用分類來找到圖片中的人臉,郵局用分類識別手寫地址,商人用分類預測市場行情。天氣學家用分類預測天氣等等。
所有這些例子的主要不同是他們的屬性。例如對於銀行客戶,屬性會是月收入,信用度等。對於醫院的患者屬性會是性別,健康級等。
下一篇將解釋如何進行分類!詳細介紹兩個廣泛使用的算法,盡情享受吧。