本文是《機器學習從零到掌握》系列之第3篇
本篇使用的數據存放在文本文件datingTestSet2.txt中,每個樣本數據佔據一行,總共有1000行。
樣本主要包含以下3中特徵:
(1)每年獲得飛行常客里程數
(2)玩視頻遊戲所耗時間百分比
(3)每週消費的冰淇淋公升數
在使用分類器之前,需要將處理的文件格式轉換爲分類器所接受的格式。
下邊代碼用來處理輸入格式問題:該函數的輸入爲文件名字符串,輸出爲訓練贗本矩陣和類標籤向量。該函數可以作爲格式處理函數,在具體例子中稍加改動即可。
代碼裏已經有詳細的註釋說明,如有不懂可以留言一起交流。
file2matrix.py
#!/usr/bin/env python
# -*- coding:utf-8 -*-
from numpy import *
import operat