一文圖解機器學習的基本算法

每當提到機器學習，大家總是被其中的各種各樣的算法和方法搞暈，覺得無從下手。確實，機器學習的各種套路確實不少，但是如果掌握了正確的路徑和方法，其實還是有跡可循的，這裏我推薦SAS的Li Hui的這篇博客，講述瞭如何選擇機器學習的各種方法。

另外，Scikit-learn 也提供了一幅清晰的路線圖給大家選擇：

其實機器學習的基本算法都很簡單，下面我們就利用二維數據和交互圖形來看看機器學習中的一些基本算法以及它們的原理。（另外向Bret Victor致敬，他的 Inventing on principle 深深的影響了我）

所有的代碼即演示可以在我的Codepen的這個Collection中找到。

首先，機器學習最大的分支的監督學習和無監督學習，簡單說數據已經打好標籤的是監督學習，而數據沒有標籤的是無監督學習。從大的分類上看，降維和聚類被劃在無監督學習，迴歸和分類屬於監督學習。

無監督學習

如果你的數據都沒有標籤，你可以選擇花錢請人來標註你的數據，或者使用無監督學習的方法。

首先你可以考慮是否要對數據進行降維。

降維

降維顧名思義就是把高維度的數據變成爲低維度。常見的降維方法有PCA, LDA, SVD等。

主成分分析 PCA

降維裏最經典的方法是主成分分析PCA，也就是找到數據的主要組成成分，拋棄掉不重要的成分。

這裏我們先用鼠標隨機生成8個數據點，然後繪製出表示主成分的白色直線。這根線就是二維數據降維後的主成分，藍色的直線是數據點在新的主成分維度上的投影線，也就是垂線。主成分分析的數學意義可以看成是找到這根白色直線，使得投影的藍色線段的長度的和爲最小值(嚴格地說應該是平方和最小)。

See the Pen ML Explained PCA by gangtao (@gangtao) onCodePen.

更多PCA的相關例子，可以參考：

聚類

因爲在非監督學習的環境下，數據沒有標籤，那麼能對數據所做的最好的分析除了降維，就是把具有相同特質的數據歸併在一起，也就是聚類。

層級聚類 Hierachical Cluster

該聚類方法用於構建一個擁有層次結構的聚類，

如上圖所示，層級聚類的算法非常的簡單：

初始時刻，所有點都自己是一個聚類
找到距離最近的兩個聚類（剛開始也就是兩個點），形成一個聚類
兩個聚類的距離指的是聚類中最近的兩個點之間的距離
重複第二步，直到所有的點都被聚集到聚類中。

See the Pen ML Explained Hierarchical Clustering by gangtao (@gangtao) onCodePen.

KMeans

KMeans中文翻譯K均值算法，是最常見的聚類算法。

隨機在圖中取K（這裏K=3）箇中心種子點。
然後對圖中的所有點求到這K箇中心種子點的距離，假如點P離中心點S最近，那麼P屬於S點的聚類。
接下來，我們要移動中心點到屬於他的“聚類”的中心。
然後重複第2）和第3）步，直到，中心點沒有移動，那麼算法收斂，找到所有的聚類。

KMeans算法有幾個問題：

如何決定K值，在上圖的例子中，我知道要分三個聚類，所以選擇K等於3，然而在實際的應用中，往往並不知道應該分成幾個類
由於中心點的初始位置是隨機的，有可能並不能正確分類，大家可以在我的Codepen中嘗試不同的數據
如下圖，如果數據的分佈在空間上有特殊性，KMeans算法並不能有效的分類。中間的點被分別歸到了橙色和藍色，其實都應該是藍色。

See the Pen ML Explained KMeans by gangtao (@gangtao) onCodePen.

DBSCAN

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）中文是基於密度的聚類算法。

DBSCAN算法基於一個事實：一個聚類可以由其中的任何核心對象唯一確定。

算法的具體聚類過程如下：掃描整個數據集，找到任意一個核心點，對該核心點進行擴充。擴充的方法是尋找從該核心點出發的所有密度相連的數據點（注意是密度相連）。遍歷該核心點的鄰域內的所有核心點（因爲邊界點是無法擴充的），尋找與這些數據點密度相連的點，直到沒有可以擴充的數據點爲止。最後聚類成的簇的邊界節點都是非核心數據點。之後就是重新掃描數據集（不包括之前尋找到的簇中的任何數據點），尋找沒有被聚類的核心點，再重複上面的步驟，對該核心點進行擴充直到數據集中沒有新的核心點爲止。數據集中沒有包含在任何簇中的數據點就構成異常點。

See the Pen ML Explained DBSCAN by gangtao (@gangtao) onCodePen.

如上圖所示，DBSCAN可以有效的解決KMeans不能正確分類的數據集。並且不需要知道K值。

當然，DBCSAN還是要決定兩個參數，如何決定這兩個參數是分類效果的關鍵因素：

一個參數是半徑（Eps），表示以給定點P爲中心的圓形鄰域的範圍；
另一個參數是以點P爲中心的鄰域內最少點的數量（MinPts）。如果滿足：以點P爲中心、半徑爲Eps的鄰域內的點的個數不少於MinPts，則稱點P爲核心點。

監督學習

監督學習中的數據要求具有標籤。也就是說針對已有的結果去預測新出現的數據。如果要預測的內容是數值類型，我們稱作迴歸，如果要預測的內容是類別或者是離散的，我們稱作分類。

其實迴歸和分類本質上是類似的，所以很多的算法既可以用作分類，也可以用作迴歸。

迴歸

線性迴歸

線性迴歸是最經典的迴歸算法。

在統計學中，線性迴歸（Linear regression）是利用稱爲線性迴歸方程的最小二乘函數對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析。這種函數是一個或多個稱爲迴歸係數的模型參數的線性組合。只有一個自變量的情況稱爲簡單迴歸，大於一個自變量情況的叫做多元迴歸。

See the Pen ML Explained Linear Regression by gangtao (@gangtao) onCodePen.

如上圖所示，線性迴歸就是要找到一條直線，使得所有的點預測的失誤最小。也就是圖中的藍色直線段的和最小。這個圖很像我們第一個例子中的PCA。仔細觀察，分辨它們的區別。

如果對於算法的的準確性要求比較高，推薦的迴歸算法包括：隨機森林，神經網絡或者Gradient Boosting Tree。

如果要求速度優先，建議考慮決策樹和線性迴歸。

總結

本文利用二維交互圖幫助大家理解機器學習的基本算法，希望能增加大家對機器學習的各種方法有所瞭解。所有的代碼可以在參考中找到。歡迎大家來和我交流。

參考：

代碼和演示動畫
- 我的Codepen Collection 包含了所有的演示代碼
- 我的github包含了所有的演示動畫
基於JavaScript的機器學習的類庫和演示
- Machine learning tools in JavaScript 基於JavaScript的機器學習庫，本文中的一些演示用到了該庫。
- 另一個基於JavaScript的機器學習庫，沒有前一個功能多，也沒有前一個活躍，但是有很好的演示
- 不錯的演示，有三種迴歸和一個聚類
如果你像想要自己構建機器學的算法，可以用到的一些數學基礎類庫
- Numeric Javascript 是基於JavaScript的數值計算和分析的類庫，提供線性代數，複數計算等功能。
- Mathjs 另一個基於JavaScript的數學計算庫，這個和前一個可以看作是和Python的numpy／scipy／sympy 對應JavaScript的庫。
- Victorjs 2D向量庫
推薦一些機器學習的路線圖
工具
- 把mov文件在線轉換爲動圖 https://convertio.co/zh/mov-gif/ 或者 https://cloudconvert.com/mov-to-gif
- gif 編輯工具 https://ezgif.com

最後感謝我的朋友Zidong的意見，我對本文做了一些修改。把邏輯迴歸提前介紹，並加了一些註釋，修正了一些不太準確的地方。

From: https://my.oschina.net/taogang/blog/1544709

一文圖解機器學習的基本算法

無監督學習

降維

主成分分析 PCA

聚類

層級聚類 Hierachical Cluster

KMeans

DBSCAN

監督學習

迴歸

線性迴歸

分類

邏輯迴歸

支持向量機 SVM

決策樹

樸素貝葉斯

KNN

總結

分佈式消息隊列RabbitMQ之一:基本概念理解

Kafka要點總結及實踐

從AWS S3換成阿里雲OSS存儲所踩的坑

機器學習算法的效果評估和優化方法

Octave常用操作函數和技巧彙總

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結