原文
https://github.com/litaotao/guidetodatamining/blob/master/chapter-4.md
https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md
定義
分類器是指通過物品特徵來判斷它應該屬於哪個組或類別的程序!分類器程序會基於一組已經做過分類的物品進行學習,從而判斷新物品的所屬類別。
eg: 會先計算出與這個物品距離最近的物品,然後找到用戶對這個最近物品的評價,以此作爲新物品的預測值。
步驟
1.我們將這些數據集分爲了兩個部分,第一部分用來構造分類器,因此稱爲訓練集;另一部分用來評估分類器的結果,因此稱爲測試集。(如何分兩部分:十折交叉驗證和留一法,https://blog.csdn.net/abcd1101/article/details/90383952)
2.數據特徵值選取。
2.標準化。當不同特徵的評分尺度不一致時,爲了得到更準確的距離結果,就需要將這些特徵進行標準化,使他們在同一個尺度內波動。
3.利用特徵值建立向量。
4.通過向量來計算距離,到這裏爲止搭建了一個分類器(計算距離可以選擇曼哈頓等的距離算法)
5.使用第二部分數據來評估分類器,如果ok就來預測(其中使用了混淆矩陣來記錄結果,Kappa指標來評估分類器,https://blog.csdn.net/abcd1101/article/details/90383952)
6..預測新物品的類別。
進階的分類算法
knn(k近鄰)算法:https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md#knn%E7%AE%97%E6%B3%95
ps:
1.KNN算法是分類算法,分類算法肯定是需要有學習語料,然後通過學習語料的學習之後的模板來匹配我們的測試語料集,將測試語料集合進行按照預先學習的語料模板來分類
2Kmeans算法是聚類算法,聚類算法與分類算法最大的區別是聚類算法沒有學習語料集合。