【機器學習】機器學習從零到掌握之三 -- 教你使用K近鄰算法改進約會網站

本文是《機器學習從零到掌握》系列之第3篇

機器學習從零到掌握之一 -- 教你理解K近鄰算法

機器學習從零到掌握之二 -- 教你實現K近鄰算法

本篇使用的數據存放在文本文件datingTestSet2.txt中,每個樣本數據佔據一行,總共有1000行。

樣本主要包含以下3中特徵:

(1)每年獲得飛行常客里程數

(2)玩視頻遊戲所耗時間百分比

(3)每週消費的冰淇淋公升數

在使用分類器之前,需要將處理的文件格式轉換爲分類器所接受的格式。


下邊代碼用來處理輸入格式問題:該函數的輸入爲文件名字符串,輸出爲訓練贗本矩陣和類標籤向量。該函數可以作爲格式處理函數,在具體例子中稍加改動即可。

代碼裏已經有詳細的註釋說明,如有不懂可以留言一起交流。

file2matrix.py

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from numpy import *
import operat
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章