原文

定義

分類器是指通過物品特徵來判斷它應該屬於哪個組或類別的程序！分類器程序會基於一組已經做過分類的物品進行學習，從而判斷新物品的所屬類別。

eg: 會先計算出與這個物品距離最近的物品，然後找到用戶對這個最近物品的評價，以此作爲新物品的預測值。

1.我們將這些數據集分爲了兩個部分，第一部分用來構造分類器，因此稱爲訓練集；另一部分用來評估分類器的結果，因此稱爲測試集。（如何分兩部分：十折交叉驗證和留一法，https://blog.csdn.net/abcd1101/article/details/90383952）

2.數據特徵值選取。

2.標準化。當不同特徵的評分尺度不一致時，爲了得到更準確的距離結果，就需要將這些特徵進行標準化，使他們在同一個尺度內波動。

3.利用特徵值建立向量。

4.通過向量來計算距離，到這裏爲止搭建了一個分類器（計算距離可以選擇曼哈頓等的距離算法）

5.使用第二部分數據來評估分類器，如果ok就來預測（其中使用了混淆矩陣來記錄結果，Kappa指標來評估分類器，https://blog.csdn.net/abcd1101/article/details/90383952）

6..預測新物品的類別。

ps:

1.KNN算法是分類算法，分類算法肯定是需要有學習語料，然後通過學習語料的學習之後的模板來匹配我們的測試語料集，將測試語料集合進行按照預先學習的語料模板來分類

2Kmeans算法是聚類算法，聚類算法與分類算法最大的區別是聚類算法沒有學習語料集合。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.