01機器學習算法整體知識體系與學習路線攻略

入行機器學習有一年多了,做過大大小小的機器學習項目,參加數據競賽等實踐活動,從最初的懵懵懂懂到現在逐步的深入,也漸漸的有了很多的體會和理解,本篇文章主要來闡述機器學習的知識體系,以讓更多人明白機器學習應該怎樣學習、需要學習什麼?這些問題就是本篇文章的主要討論的內容,下面開始進行詳細介紹。

先對本篇文章的目錄做個介紹:

  1. 1.機器學習術語
  2. 2.常見算法類型
  3. 3.評估方法和指標
  4. 4.性能優化和超參數調優

1.機器學習術語

接下來正式介紹機器學習術語。機器學習術語作爲作爲最基本的常識問題,爲了更好的學習和理解機器學習算法,識記和理解相關術語是非常必要的。術語常見的有特徵、標籤、泛化能力、有監督與無監督學習、過擬合、欠擬合、魯棒性、分類、迴歸、聚類與降維、集成學習等。

在這裏只介紹機器學習、特徵、標籤、有監督與無監督學習這幾個術語,其它術語在後面會一一介紹。

(1)機器學習
機器學習是指根據歷史數據,使用某種算法或者規則從數據中尋找規律,以達到預測未知的事情,這就是通俗的機器學習概念

(2)特徵
特徵是指與事物本身關係緊密的屬性,通俗來講特徵是一組自變量數據。

(3)標籤
標籤是指一組屬性特徵所對應的標誌值,通俗來講標籤是一組應變量數據。

【福利1:如何快速且深刻的區別和理解特徵與標籤的含義、區別?】
福利1:例如關係式:y=x1+x2+x3,y就是標籤,而x1、x2、x3則是特徵,下面將特徵與標籤以二維向量的形式展示,以加強理解:
x1(特徵) x2(特徵) x3(特徵) y(標籤)
樣本1 2 1 5 8
樣本2 5 6 3 14
… … … … …

(4)有監督與無監督學習
有監督學習是指算法在訓練過程中,不僅數據特徵參與訓練,而且數據標籤也參與到訓練中以輔助特徵的訓練學習。

無監督學習是指算法在訓練過程中,只有數據特徵參與訓練學習,而數據標籤是不確定或未知。

【福利2:如何快速理解與區別有監督、無監督學習呢?】
福利2:有監督學習=特徵+標籤;無監督學習=特徵。

2.常見算法類型

機器學習常見的算法類型有:分類、迴歸、聚類、降維。

(1)分類
分類算法是指針對標籤爲離散型數據的一類問題進行算法訓練,從而預測並進行分類的過程。分類算法常見的有:K近鄰算法、樸素貝葉斯、邏輯迴歸、支持向量機、決策樹(在這裏先不列出集成學習之類的分類算法)。

(2)迴歸
迴歸算法是指針對標籤爲連續型數據的一類問題進行算法訓練,從而預測並進行擬合的過程。迴歸算法常見的有:線性迴歸、嶺迴歸、lasso迴歸。

(3)聚類
聚類算法是指利用事物特徵的相似度進行聚類劃分的過程。比較常見的聚類算法是k-means。

(4)降維
降維是指將高維數據低維化的過程,旨在通過少量特徵的信息來代替總體特徵的信息。常見的是主成分分析(PCA)。

3.評估方法與指標

性能評估是指算法進行訓練學習之後,爲了驗證算法的可靠性,需要性能評估方法和指標來衡量算法的優劣情況。

(1)評估方法
評估方法常見的是:holdout驗證、k-fold交叉驗證。

(2)評估指標
分類評估指標主要有:準確率、混淆矩陣、精確率、召回率、f1分數、auc值以及P-R曲線、roc曲線。

迴歸評估指標主要有:絕對平均誤差、均方差、均方根誤差等。

4.性能優化和超參數調優

性能優化是指對算法模型進一步改進,以得到更爲理想的預測效果。性能優化常見的有梯度下降、超參數調優、集成學習算法、正則項懲罰、有效特徵選擇等。

本篇機器學習整體知識體系介紹完畢,歡迎留言交流學習,每天學習成長一點點!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章