K近鄰算法用官方的話來說,所謂K近鄰算法,即是給定一個訓練數據集,對新的輸入實例,在訓練數據集中找到與該實例最鄰近的K個實例(也就是上面所說的K個鄰居), 這K個實例的多數屬於某個類,就把該輸入實例分類到這個類中。
下面通過一個簡單的例子說明一下:如下圖,綠色圓要被決定賦予哪個類,是紅色三角形還是藍色四方形?如果K=3,由於紅色三角形所佔比例爲2/3,綠色圓將被賦予紅色三角形那個類,如果K=5,由於藍色四方形比例爲3/5,因此綠色圓被賦予藍色四方形類。
按照《機器學習實戰》的給出的代碼,從最基礎的部分開始,首先編寫KNN.py文件,它負責生成訓練樣本以及實施KNN算法
'''
KNN
'''
#coding:utf-8
from numpy import *
import operator
def createDataSet():
group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
lables = ['A', 'A', 'B', 'B']
return group, lables
def classify0(inX, dataSet, lables, k):
dataSetSize = dataSet.shape[0] '''獲取訓練樣本數'''
'''開始計算測試樣本和訓練樣本的歐式距離'''
diffMat = tile(inX, (dataSetSize,1)) - dataSet '''將測試樣本重複dataSetSize次,以生成和訓練樣本一樣的矩陣,並與訓練樣本做差'''
sqDiffMat = diffMat**2
sqDistance = sqDiffMat.sum(axis=1)
distance = sqDistance**0.5
sortedDistanceIndex=distance.argsort() '''將計算出的距離從小到大排序,返回每個元素在原數組中的索引值'''
classCount={} '''儲存結果字典'''
for i in range(k):
voteIlabel=lables[sortedDistanceIndex[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
sortedClassCount = sorted(classCount.iteritems(), key= operator.itemgetter(1), reverse= True)
return sortedClassCount[0][0]
group , lables=createDataSet ()
print classify0([0,0], group, lables, 3)
運行代碼後就會打印出 B接下來的例子爲使用K近鄰算法改進約會網站的配對效果
假設根據每個人玩遊戲所佔的時間比,每年獲得的飛行常客里程數,每週所消費的冰淇淋公升數這三個數據根據一定情況劃分爲三類人
一點也不喜歡,有一丟丟喜歡,灰常喜歡
如
玩遊戲所佔的時間比 | 每年獲得的飛行常客里程數 | 每週所消費的冰淇淋公升數 | 分類 |
0.8 | 400 | 0.5 | 一點也不喜歡 |
12 | 134000 | 0.9 | 灰常喜歡 |
from numpy import *
import operator
import matplotlib
import matplotlib.pyplot as plt
from os import listdir
def createDataSet():
group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
lables = ['A', 'A', 'B', 'B']
return group, lables
def classify0(inX, dataSet, lables, k):
dataSetSize = dataSet.shape[0] ##獲取訓練樣本數
##開始計算測試樣本和訓練樣本的歐式距離'''
diffMat = tile(inX, (dataSetSize,1)) - dataSet ##將測試樣本重複dataSetSize次,以生成和訓練樣本一樣的矩陣,並與訓練樣本做差'''
sqDiffMat = diffMat**2
sqDistance = sqDiffMat.sum(axis=1)
distance = sqDistance**0.5
sortedDistanceIndex=distance.argsort() ##將計算出的距離從小到大排序,返回每個元素在原數組中的索引值'''
classCount={} ##儲存結果字典'''
for i in range(k):
voteIlabel=lables[sortedDistanceIndex[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
sortedClassCount = sorted(classCount.iteritems(), key= operator.itemgetter(1), reverse= True)
return sortedClassCount[0][0]
def fileToMatrix(filename):
fr = open(filename) ##打開文件
arrayOLines = fr.readlines() ##讀取文件
numberOfLines = len(arrayOLines) ##獲取文件行數
returnMat = zeros((numberOfLines,3)) ##生成numberOfLines行3列的矩陣
classLabelVector = [] ##存放分類信息
index = 0
for line in arrayOLines: ##讀取文件的每一行
line =line.strip() ##去掉\n
listFromLine = line.split('\t') ##數據按\t分割成數組
returnMat[index, :] = listFromLine[0 : 3] ##複製數據到矩陣
classLabelVector.append(int (listFromLine[-1])) ##添加分類信息數據
index +=1
return returnMat, classLabelVector
def autoNorm(dataSet):##數據歸一化處理
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges =maxVals - minVals
normDataSet = zeros(shape(dataSet))
m = dataSet.shape[0]
normDataSet = dataSet - tile(minVals, (m,1))
normDataSet = normDataSet/tile(ranges, (m,1))
return normDataSet, ranges, minVals
def datingClassTest():##使用樣本測試
hoRatio = 0.1
datingDataMat, datingLables = fileToMatrix("datingTestSet2.txt")
normMat ,ranges ,minVals =autoNorm(datingDataMat)
m = normMat.shape[0]
numTestVecs = int(m*hoRatio)
errorCount = 0
for i in range(numTestVecs):
classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :],datingLables[numTestVecs: m],3)
print "Classifer Result : %d , Corret Result : %d"%(classifierResult, datingLables[i])
if(classifierResult != datingLables[i]):
errorCount +=1
print "Error Rate : %f"%(errorCount/float(numTestVecs))
##group , lables=createDataSet ()
##print classify0([0,0], group, lables, 3)
###預測函數
def classifyPerson():
resultList = [u'一點也不喜歡',u'有一丟丟喜歡',u'灰常喜歡']
percentTats = float(input(u"玩視頻所佔的時間比?".encode("GBK")))
miles = float(input(u"每年獲得的飛行常客里程數?".encode("GBK")))
iceCream = float(input(u"每週所消費的冰淇淋公升數?".encode("GBK")))
datingDataMat,datingLabels = fileToMatrix("datingTestSet2.txt")
normMat,ranges,minVals = autoNorm(datingDataMat)
inArr = array([miles,percentTats,iceCream])
classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,3)
print u"你對這個人的喜歡程度:".encode("GBK"),resultList[classifierResult - 1].encode("GBK")
datingClassTest()
classifyPerson()
最後一個例子爲手寫數字識別系統的測試系統
這個例子裏首先有訓練好的數據集,用這些數據集檢測測試數據集
from numpy import *
import operator
import matplotlib
import matplotlib.pyplot as plt
from os import listdir
def createDataSet():
group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
lables = ['A', 'A', 'B', 'B']
return group, lables
def classify0(inX, dataSet, lables, k):
dataSetSize = dataSet.shape[0] ##獲取訓練樣本數
##開始計算測試樣本和訓練樣本的歐式距離'''
diffMat = tile(inX, (dataSetSize,1)) - dataSet ##將測試樣本重複dataSetSize次,以生成和訓練樣本一樣的矩陣,並與訓練樣本做差'''
sqDiffMat = diffMat**2
sqDistance = sqDiffMat.sum(axis=1)
distance = sqDistance**0.5
sortedDistanceIndex=distance.argsort() ##將計算出的距離從小到大排序,返回每個元素在原數組中的索引值'''
classCount={} ##儲存結果字典'''
for i in range(k):
voteIlabel=lables[sortedDistanceIndex[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
sortedClassCount = sorted(classCount.iteritems(), key= operator.itemgetter(1), reverse= True)
return sortedClassCount[0][0]
''' 以下兩個函數爲手寫數字識別系統的測試系統的相關代碼'''
def imgToVector(filename):##將32*32文本的txt文件讀入並保存爲1*1024的一維矩陣
returnVect = zeros((1,1024))
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
a= returnVect[0,32*i+j]
b= int(lineStr[j])
returnVect[0,32*i+j] = int(lineStr[j])
return returnVect
def handwritingClassTest():
hwLabels = []
trainingFileList = listdir('trainingDigits') #load the training set
m = len(trainingFileList)
trainingMat = zeros((m,1024))
for i in range(m):
fileNameStr = trainingFileList[i]
fileStr = fileNameStr.split('.')[0] #take off .txt
classNumStr = int(fileStr.split('_')[0])
hwLabels.append(classNumStr)
trainingMat[i,:] = imgToVector('trainingDigits/%s' % fileNameStr)
testFileList = listdir('testDigits') #iterate through the test set
errorCount = 0.0
mTest = len(testFileList)
for i in range(mTest):
fileNameStr = testFileList[i]
fileStr = fileNameStr.split('.')[0] #take off .txt
classNumStr = int(fileStr.split('_')[0])
vectorUnderTest = imgToVector('testDigits/%s' % fileNameStr)
classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
if (classifierResult != classNumStr): errorCount += 1.0
print "\nthe total number of errors is: %d" % errorCount
print "\nthe total error rate is: %f" % (errorCount/float(mTest))
handwritingClassTest()
可以看到分類的結果,其中有11個分類錯誤