Machine Learning “for Dummies” (Part 1)

原創

千空

2020-06-16 10:04

機器學習“傻瓜書”（一）

你可能已經聽說過“機器學習”（或者“數據挖掘”、“大數據”、”數據分析“、“雲計算”）但是你並不確切的瞭解它們究竟是神馬。你可能知道它們是一些計算機或數學的玩意兒，可能你已經使用過依賴機器學習的軟件，但對你而言它就像魔術。

機器學習應用廣泛，例如銀行用它探查詐騙或者預估風險，郵件管理器用它過濾垃圾郵件，醫生用它幫助診斷，生物學家用它分析DNA，谷歌、必應、雅虎用它回答你的問題，等等。

這個系列的文章主要基於示例，目的是讓你瞭解該技術工作的原理從而對機器學習有一定的概念。（譯者注：本系列文章是“傻瓜書”，低門檻知識普及）

主題分爲三個文章。第一篇介紹機器學習的主要任務：分類。第二篇展示兩個重要的用於分類的技術（算法）。最後一篇將會討論計算機科學家如何評估機器學習的品質。

定義

很難給機器學習一個實際的定義。姑且稱之爲可以用作預測或者幫助用戶理解複雜現象的程序項目吧。

機器學習是個很大的話題。爲了不至於太寬泛我會僅僅集中於一個主題：“分類”。“分類”只是機器學習的子領域，但是它是最重要的主題之一。當人們談論機器學習的時候，經常會提及分類。

分類

分類的思想是這樣的：我們有一些列觀察值。對機器學習而言觀察值一般是一個物體或一個情形的描述。爲了幫助理解，讓我們用一個常見的例子：鳶尾花。假設一個觀察值是單個花的描述：對每朵花而言，我們有4個度量：花瓣和花萼的寬和長（cm）。鳶尾花可能不是最令人感興趣的例子，但是它簡單實際便於理解機器學習。那麼現在告訴你鳶尾花例子被稱作“鳶尾花數據集”，它被廣泛用於機器學習的測試和理解分類算法。

每朵花的這4個度量被稱作“屬性”。在機器學習中，觀察值就是一系列的屬性。當我們對比觀察值的時候，其實是在對比屬性：例如，這朵花的花瓣比另一朵的要長。屬性可以表示不同的事物（例如，飛機的長度，風暴的持續時間，室內溫度，牆壁的顏色）。一般來說屬性被分爲兩類：數值或者類別。兩者的界限並不總是很清晰，但是當比較（<或>）一個屬性的不同值的時候，我們一般認爲這個屬性是數值，否則我們說它是個類別（例如花的顏色或者狗的種類）。

另外，對每個觀察（例如鳶尾花），我們有一個“類”。一個類是關於觀察的額外信息位。在我們的例子中，假設一個鳶尾花的類是這朵花的種類。爲了簡單，我們只關心3類鳶尾花：Setosa,Versicolour和Viginica。

現在我們有了一系列鳶尾花的觀察值。每個觀察有一系列屬性和類。具體可見下面的表格。類似這種表就稱作“數據集”。

我們假設，總體我們有150個鳶尾花觀測值，但是最後一朵我們並不知道它的類。我們可以問自己一個問題：鳶尾花的種類是和它的花瓣、花萼的尺寸有關的嗎？可能一類花的花瓣尺寸比另一類的長？換句話說，我們可以根據用149朵鳶尾花的屬性及類通過對比找到最後那朵花的類嗎？這就是典型的分類問題。正式點來表達就是：假設我們有一系列帶註釋的觀測值和一個無註釋的觀測值。我們怎麼找到無註釋項的類？

實際上，分類並不僅僅用於花朵種類等，也會用於深層次的情形，例如數碼相機用分類來找到圖片中的人臉，郵局用分類識別手寫地址，商人用分類預測市場行情。天氣學家用分類預測天氣等等。

所有這些例子的主要不同是他們的屬性。例如對於銀行客戶，屬性會是月收入，信用度等。對於醫院的患者屬性會是性別，健康級等。

下一篇將解釋如何進行分類！詳細介紹兩個廣泛使用的算法，盡情享受吧。

Machine Learning “for Dummies” (Part 2)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Machine Learning “for Dummies” (Part 1)

機器學習“傻瓜書”（一）

定義

分類

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

Machine Learning “for Dummies” (Part 1)

準確率(Accuracy), 精確率(Precision), 召回率(Recall)和F1-Measure，confusion matrix

華爲機試【按要求輸出偶數，奇數之和】

機器視覺開源代碼集合

機器學習算法基礎知識

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結