K近鄰(KNN)算法

K近鄰算法用官方的話來說,所謂K近鄰算法,即是給定一個訓練數據集,對新的輸入實例,在訓練數據集中找到與該實例最鄰近的K個實例(也就是上面所說的K個鄰居), 這K個實例的多數屬於某個類,就把該輸入實例分類到這個類中。

下面通過一個簡單的例子說明一下:如下圖,綠色圓要被決定賦予哪個類,是紅色三角形還是藍色四方形?如果K=3,由於紅色三角形所佔比例爲2/3,綠色圓將被賦予紅色三角形那個類,如果K=5,由於藍色四方形比例爲3/5,因此綠色圓被賦予藍色四方形類。


按照《機器學習實戰》的給出的代碼,從最基礎的部分開始,首先編寫KNN.py文件,它負責生成訓練樣本以及實施KNN算法

'''

KNN
'''
#coding:utf-8

from numpy import *
import operator

def createDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    lables = ['A', 'A', 'B', 'B']
    return group, lables

def  classify0(inX, dataSet, lables, k):
    dataSetSize = dataSet.shape[0] '''獲取訓練樣本數'''
    '''開始計算測試樣本和訓練樣本的歐式距離'''
    diffMat = tile(inX, (dataSetSize,1)) - dataSet '''將測試樣本重複dataSetSize次,以生成和訓練樣本一樣的矩陣,並與訓練樣本做差'''
    sqDiffMat = diffMat**2
    sqDistance = sqDiffMat.sum(axis=1)
    distance = sqDistance**0.5
    sortedDistanceIndex=distance.argsort() '''將計算出的距離從小到大排序,返回每個元素在原數組中的索引值'''
    classCount={} '''儲存結果字典'''
    for i in range(k):
        voteIlabel=lables[sortedDistanceIndex[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
    sortedClassCount = sorted(classCount.iteritems(), key= operator.itemgetter(1), reverse= True)
    return sortedClassCount[0][0]

group , lables=createDataSet ()
print classify0([0,0], group, lables, 3)
運行代碼後就會打印出 B


接下來的例子爲使用K近鄰算法改進約會網站的配對效果

假設根據每個人玩遊戲所佔的時間比,每年獲得的飛行常客里程數,每週所消費的冰淇淋公升數這三個數據根據一定情況劃分爲三類人

一點也不喜歡,有一丟丟喜歡,灰常喜歡

玩遊戲所佔的時間比 每年獲得的飛行常客里程數 每週所消費的冰淇淋公升數 分類
0.8 400 0.5 一點也不喜歡
12 134000 0.9 灰常喜歡


from numpy import *
import operator
import matplotlib
import matplotlib.pyplot as plt
from os import listdir

def createDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    lables = ['A', 'A', 'B', 'B']
    return group, lables

def  classify0(inX, dataSet, lables, k):
    dataSetSize = dataSet.shape[0] ##獲取訓練樣本數
    ##開始計算測試樣本和訓練樣本的歐式距離'''
    diffMat = tile(inX, (dataSetSize,1)) - dataSet ##將測試樣本重複dataSetSize次,以生成和訓練樣本一樣的矩陣,並與訓練樣本做差'''
    sqDiffMat = diffMat**2
    sqDistance = sqDiffMat.sum(axis=1)
    distance = sqDistance**0.5
    sortedDistanceIndex=distance.argsort() ##將計算出的距離從小到大排序,返回每個元素在原數組中的索引值'''
    classCount={} ##儲存結果字典'''
    for i in range(k):
        voteIlabel=lables[sortedDistanceIndex[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
    sortedClassCount = sorted(classCount.iteritems(), key= operator.itemgetter(1), reverse= True)
    return sortedClassCount[0][0]

def fileToMatrix(filename):
    fr = open(filename) ##打開文件
    arrayOLines = fr.readlines() ##讀取文件 
    numberOfLines = len(arrayOLines) ##獲取文件行數
    returnMat = zeros((numberOfLines,3)) ##生成numberOfLines行3列的矩陣
    classLabelVector = []  ##存放分類信息
    index = 0
    for line in arrayOLines:  ##讀取文件的每一行
        line =line.strip()  ##去掉\n
        listFromLine = line.split('\t') ##數據按\t分割成數組
        returnMat[index, :] = listFromLine[0 : 3]  ##複製數據到矩陣
        classLabelVector.append(int (listFromLine[-1]))  ##添加分類信息數據
        index +=1
    return returnMat, classLabelVector

def autoNorm(dataSet):##數據歸一化處理
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges =maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))
    return normDataSet, ranges, minVals

def datingClassTest():##使用樣本測試
    hoRatio = 0.1
    datingDataMat, datingLables = fileToMatrix("datingTestSet2.txt")
    normMat ,ranges ,minVals =autoNorm(datingDataMat)
    m = normMat.shape[0]
    numTestVecs = int(m*hoRatio)
    errorCount = 0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :],datingLables[numTestVecs: m],3)
        print "Classifer Result  :   %d , Corret Result  :   %d"%(classifierResult, datingLables[i])
        if(classifierResult != datingLables[i]):
            errorCount +=1
    print "Error Rate :  %f"%(errorCount/float(numTestVecs))
##group , lables=createDataSet ()
##print classify0([0,0], group, lables, 3)

###預測函數
def classifyPerson():
    resultList = [u'一點也不喜歡',u'有一丟丟喜歡',u'灰常喜歡']
    percentTats = float(input(u"玩視頻所佔的時間比?".encode("GBK")))
    miles = float(input(u"每年獲得的飛行常客里程數?".encode("GBK")))
    iceCream = float(input(u"每週所消費的冰淇淋公升數?".encode("GBK")))
    datingDataMat,datingLabels = fileToMatrix("datingTestSet2.txt")
    normMat,ranges,minVals = autoNorm(datingDataMat)
    inArr = array([miles,percentTats,iceCream])
    classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,3)
    print u"你對這個人的喜歡程度:".encode("GBK"),resultList[classifierResult - 1].encode("GBK")
datingClassTest()
classifyPerson()


最後一個例子爲手寫數字識別系統的測試系統

這個例子裏首先有訓練好的數據集,用這些數據集檢測測試數據集


from numpy import *
import operator
import matplotlib
import matplotlib.pyplot as plt
from os import listdir

def createDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    lables = ['A', 'A', 'B', 'B']
    return group, lables

def  classify0(inX, dataSet, lables, k):
    dataSetSize = dataSet.shape[0] ##獲取訓練樣本數
    ##開始計算測試樣本和訓練樣本的歐式距離'''
    diffMat = tile(inX, (dataSetSize,1)) - dataSet ##將測試樣本重複dataSetSize次,以生成和訓練樣本一樣的矩陣,並與訓練樣本做差'''
    sqDiffMat = diffMat**2
    sqDistance = sqDiffMat.sum(axis=1)
    distance = sqDistance**0.5
    sortedDistanceIndex=distance.argsort() ##將計算出的距離從小到大排序,返回每個元素在原數組中的索引值'''
    classCount={} ##儲存結果字典'''
    for i in range(k):
        voteIlabel=lables[sortedDistanceIndex[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
    sortedClassCount = sorted(classCount.iteritems(), key= operator.itemgetter(1), reverse= True)
    return sortedClassCount[0][0]

''' 以下兩個函數爲手寫數字識別系統的測試系統的相關代碼'''

def imgToVector(filename):##將32*32文本的txt文件讀入並保存爲1*1024的一維矩陣
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
         lineStr = fr.readline()
         for j in range(32):
             a= returnVect[0,32*i+j]
             b= int(lineStr[j])
             returnVect[0,32*i+j] = int(lineStr[j])
            
    return returnVect

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')           #load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = imgToVector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')        #iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = imgToVector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)
        if (classifierResult != classNumStr): errorCount += 1.0
    print "\nthe total number of errors is: %d" % errorCount
    print "\nthe total error rate is: %f" % (errorCount/float(mTest))
handwritingClassTest()


可以看到分類的結果,其中有11個分類錯誤


發佈了27 篇原創文章 · 獲贊 4 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章