推薦系統 - 基於物品本身的特徵來(分類)推薦- 步驟與進階的knn

原文

https://github.com/litaotao/guidetodatamining/blob/master/chapter-4.md

https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md

 

定義

分類器是指通過物品特徵來判斷它應該屬於哪個組或類別的程序!分類器程序會基於一組已經做過分類的物品進行學習,從而判斷新物品的所屬類別。

eg: 會先計算出與這個物品距離最近的物品,然後找到用戶對這個最近物品的評價,以此作爲新物品的預測值。

 

步驟

1.我們將這些數據集分爲了兩個部分,第一部分用來構造分類器,因此稱爲訓練集;另一部分用來評估分類器的結果,因此稱爲測試集。(如何分兩部分:十折交叉驗證和留一法,https://blog.csdn.net/abcd1101/article/details/90383952

2.數據特徵值選取。

2.標準化。當不同特徵的評分尺度不一致時,爲了得到更準確的距離結果,就需要將這些特徵進行標準化,使他們在同一個尺度內波動。

3.利用特徵值建立向量。

4.通過向量來計算距離,到這裏爲止搭建了一個分類器(計算距離可以選擇曼哈頓等的距離算法)

5.使用第二部分數據來評估分類器,如果ok就來預測(其中使用了混淆矩陣來記錄結果,Kappa指標來評估分類器,https://blog.csdn.net/abcd1101/article/details/90383952

6..預測新物品的類別。

 

進階的分類算法

knn(k近鄰)算法:https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md#knn%E7%AE%97%E6%B3%95

ps:

1.KNN算法是分類算法,分類算法肯定是需要有學習語料,然後通過學習語料的學習之後的模板來匹配我們的測試語料集,將測試語料集合進行按照預先學習的語料模板來分類

2Kmeans算法是聚類算法,聚類算法與分類算法最大的區別是聚類算法沒有學習語料集合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章