01機器學習算法整體知識體系與學習路線攻略

原創

2020-06-22 18:39

入行機器學習有一年多了，做過大大小小的機器學習項目，參加數據競賽等實踐活動，從最初的懵懵懂懂到現在逐步的深入，也漸漸的有了很多的體會和理解，本篇文章主要來闡述機器學習的知識體系，以讓更多人明白機器學習應該怎樣學習、需要學習什麼？這些問題就是本篇文章的主要討論的內容，下面開始進行詳細介紹。

先對本篇文章的目錄做個介紹：

1.機器學習術語
2.常見算法類型
3.評估方法和指標
4.性能優化和超參數調優

1.機器學習術語

接下來正式介紹機器學習術語。機器學習術語作爲作爲最基本的常識問題，爲了更好的學習和理解機器學習算法，識記和理解相關術語是非常必要的。術語常見的有特徵、標籤、泛化能力、有監督與無監督學習、過擬合、欠擬合、魯棒性、分類、迴歸、聚類與降維、集成學習等。

在這裏只介紹機器學習、特徵、標籤、有監督與無監督學習這幾個術語，其它術語在後面會一一介紹。

(1)機器學習
機器學習是指根據歷史數據，使用某種算法或者規則從數據中尋找規律，以達到預測未知的事情，這就是通俗的機器學習概念

(2)特徵
特徵是指與事物本身關係緊密的屬性，通俗來講特徵是一組自變量數據。

(3)標籤
標籤是指一組屬性特徵所對應的標誌值，通俗來講標籤是一組應變量數據。

【福利1：如何快速且深刻的區別和理解特徵與標籤的含義、區別？】
福利1：例如關係式：y=x1+x2+x3，y就是標籤，而x1、x2、x3則是特徵，下面將特徵與標籤以二維向量的形式展示，以加強理解：
x1（特徵） x2（特徵） x3（特徵） y（標籤）
樣本1 2 1 5 8
樣本2 5 6 3 14
… … … … …

(4)有監督與無監督學習
有監督學習是指算法在訓練過程中，不僅數據特徵參與訓練，而且數據標籤也參與到訓練中以輔助特徵的訓練學習。

無監督學習是指算法在訓練過程中，只有數據特徵參與訓練學習，而數據標籤是不確定或未知。

【福利2：如何快速理解與區別有監督、無監督學習呢？】
福利2：有監督學習=特徵+標籤；無監督學習=特徵。

2.常見算法類型

機器學習常見的算法類型有：分類、迴歸、聚類、降維。

(1)分類
分類算法是指針對標籤爲離散型數據的一類問題進行算法訓練，從而預測並進行分類的過程。分類算法常見的有：K近鄰算法、樸素貝葉斯、邏輯迴歸、支持向量機、決策樹（在這裏先不列出集成學習之類的分類算法）。

(2)迴歸
迴歸算法是指針對標籤爲連續型數據的一類問題進行算法訓練，從而預測並進行擬合的過程。迴歸算法常見的有：線性迴歸、嶺迴歸、lasso迴歸。

(3)聚類
聚類算法是指利用事物特徵的相似度進行聚類劃分的過程。比較常見的聚類算法是k-means。

(4)降維
降維是指將高維數據低維化的過程，旨在通過少量特徵的信息來代替總體特徵的信息。常見的是主成分分析（PCA）。

3.評估方法與指標

性能評估是指算法進行訓練學習之後，爲了驗證算法的可靠性，需要性能評估方法和指標來衡量算法的優劣情況。

(1)評估方法
評估方法常見的是：holdout驗證、k-fold交叉驗證。

(2)評估指標
分類評估指標主要有：準確率、混淆矩陣、精確率、召回率、f1分數、auc值以及P-R曲線、roc曲線。

迴歸評估指標主要有：絕對平均誤差、均方差、均方根誤差等。

4.性能優化和超參數調優

性能優化是指對算法模型進一步改進，以得到更爲理想的預測效果。性能優化常見的有梯度下降、超參數調優、集成學習算法、正則項懲罰、有效特徵選擇等。

本篇機器學習整體知識體系介紹完畢，歡迎留言交流學習，每天學習成長一點點！！！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

01機器學習算法整體知識體系與學習路線攻略

先對本篇文章的目錄做個介紹：

1.機器學習術語

2.常見算法類型

3.評估方法與指標

4.性能優化和超參數調優

SQL優化-20231016

01機器學習算法整體知識體系與學習路線攻略

如何解決scrapy爬蟲框架失敗的問題

在Linux vim環境下開發python程序的使用教程，幫助入門

python操作MySQL數據庫，pymysql安裝與實例介紹

【TensorFlow2.x系列第3篇】TensorFlow2.0-深度學習中的激活函數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結