初識機器學習

一、什麼是機器學習？

機器學習，就是讓計算機具有像人一樣的學習能力，是從堆積如山的數據（也就是大數據）中尋找出有用知識的數據挖掘技術。

1.1 學習的種類

根據所處理的數據類型種類，將學習分爲：監督學習，無監督學習和強化學習等。爲了更好的理解，我們用學生和老師的關係來進行概念說明：學生對應於計算機，老師對應於周圍的環境。

監督學習

指有求知慾的學生從老師那裏獲取知識和信息，老師提供對錯指示並告知最終答案的學習過程。監督學習的最終目標是：根據在學習過程中所獲得的經驗和技能，對沒有學習過的問題也可以做出正確的解答，並使計算機具有這種泛化的能力。

此類學習可以應用於手寫文字識別、聲音圖像處理、垃圾郵件的分類與攔截、網頁檢索和基因診斷等。其典型的任務有：預測數值型數據的迴歸、預測分類標籤的分類、預測順序的排序等。

無監督學習

指在沒有老師的情況下，學生自學的過程，在機器學習中計算機在互聯網中自動收集信息，獲取有用的知識。無監督學習在人造衛星故障診斷、視頻分析、社交網站解析和聲音解析等方面有廣泛運用。典型的任務有：聚類、異常檢測等。

強化學習

指在沒有老師提示的情況下，自己對預測的結果進行評估的方法，通過這樣的自我評估，機器會爲了更好更準確判斷而不斷的進行學習。強化學習在人的自動控制、計算機遊戲中的人工智能、市場戰略的最優化等方面具有廣泛的應用。典型的任務有：迴歸、聚類和降維等。

1.2 機器學習任務

上一部分中我提到了一些典型的任務，那麼這些任務其實可以理解爲機器學習的典型算法。

迴歸：迴歸方法是一種對數值型連續隨機變量進行預測和建模的監督學習算法，其任務的特點是標註的數據集具有數值型的目標變量。也就是說，每一個觀察樣本都有一個數值型的標註真值以監督算法。包括：線性迴歸（正則化）、迴歸樹（集成方法）、深度學習、最近鄰算法等。

分類：分類方法是一種對離散型隨機變量建模或預測的監督學習算法，許多回歸算法都有與其相對應的分類算法，分類算法通常適用於預測一個類別（或類別的概率）而不是連續的數值。包括：Logistic迴歸（正則化）、分類樹（集成方法）、深度學習、支持向量機、樸素貝葉斯等。

聚類：聚類是一種無監督學習任務，該算法基於數據的內部結構尋找觀察樣本的自然族羣（即集羣），因爲聚類是一種無監督學習（即數據沒有標註），並且通常使用數據可視化評價結果。包括：K均值聚類、AP聚類、層次聚類、DBScan等。

以上三種典型的機器學習算法的解析及優缺點分析可以看知乎專欄：

https://zhuanlan.zhihu.com/p/27013861

異常檢測：指尋找輸入樣本中所包含的異常數據的問題。在無監督的異常檢測問題中，一般採用密度估計的方法，把靠近密度中心的數據作爲正常數據，把偏離密度中心的數據作爲異常數據。

降維：是指從高維度數據中提取關鍵信息，將其轉換爲易於計算的低維度問題進而求解的方法。

先大概瞭解一下，算法詳解和實現慢慢做吧。又是新的一年，每天學點新的知識，你好啊，2018！