各種分類算法比較

1 KNN算法

原理：已知樣本集中每一個數據與所屬分類的對應關係，輸入沒有標籤的新數據後，將新數據與訓練集的數據對應特徵進行比較，找出“距離”最近的k（通常k<20）數據，選擇這k個數據中出現最多的分類作爲新數據的分類。
算法描述：
(1) 計算已知類別數據及中的點與當前點的距離；
(2) 按距離遞增次序排序
(3) 選取與當前點距離最小的k個點
(4) 確定前K個點所在類別出現的頻率
(5) 返回頻率最高的類別作爲當前類別的預測
距離計算方法有”euclidean”（歐氏距離）,“wski”（明科夫斯基距離）,”maximum”（切比雪夫距離）,”manhattan”（絕對值距離）,”canberra”（蘭式距離）,”minkowski”（馬氏距離）等。
優點：精度高、對異常值不敏感、無數據輸入假定。
缺點：計算複雜度高，空間複雜度高。

2 決策樹

生成決策樹的步驟：
(1) 根據給定的訓練數據，根據屬性選擇度量選擇每一個維度來劃分數據集，找到最關鍵的維度。
(2) 當某個分支下所有的數據都數據同一分類則終止劃分並返回類標籤，否則在此分支上重複實施(1)過程。
(3) 依次計算就將類標籤構建成了一棵抉擇樹。
(4) 依靠訓練數據構造了決策樹之後，我們就可以將它用於實際數據的分類。
典型的算法有ID3 、C4.5、 CART（分類與迴歸樹），三種算法均採用貪心（即非回溯的）方法，其中決策樹以自頂向下遞歸的分支方式構造。但屬性選擇度量的不同：ID3採用信息增益度量；C4.5採用信息增益率；CART採用GINI指標。
優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵數據。
缺點：可能會產生匹配過度問題。

3 樸素貝葉斯算法

優點：在數據較少的情況下仍然有效，可以處理多類別問題。
缺點：對於輸入數據的準備方式較爲敏感。

4 支持向量機

優點：泛化錯誤率低，計算開銷不大，結果易解釋。
缺點：對參數調節和核函數的選擇敏感，原始分類器不加修改僅適用於處理二分類問題

5 神經網絡

6 Logistic迴歸

優點：計算代價不高，易於理解和實現。
缺點：容易欠擬合，分類精度可能不高。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

各種分類算法比較

1 KNN算法

2 決策樹

3 樸素貝葉斯算法

4 支持向量機

5 神經網絡

6 Logistic迴歸

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

深入淺出SQL（三）——表的規範化

分類算法——決策樹（1）

分類算法——決策樹算法及其R實現

第五章隨機事件及其概率

R語言quantstrat包

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結