《機器學習實戰》數據集處理和可視化

在機器學習實戰中,個人覺得最重要的兩部分是數據+算法。對於一個數據集我們在分類之前希望能夠進行可視化。繪製散點圖

是進行可視化的常用工具,下面鏈接是關於scatter函數的參數的細緻講解:

https://blog.csdn.net/jinruoyanxu/article/details/78845724

import matplotlib.pyplot as plt
from numpy import*
def loadDate(filename):
    dataSet = []
    labelSet = []
    with open(filename) as fp:
        # 返回的是列表
        lines = fp.readlines()
        for line in lines:
            lineArr = line.strip().split('\t')
            dataSet.append([float(lineArr[0]),float(lineArr[1])])
            labelSet.append(float(lineArr[2]))
    return dataSet,labelSet


filename = "traindata.txt"
dataSet,labelSet = loadDate(filename)
dataMat = array(dataSet)
labelMat = array(labelSet)
index =where( labelMat == 1)
# 返回數組
print(index)
res1 = dataMat[index,0]
print(res1)
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(dataMat[index,0],dataMat[index,1],marker = 'x', color = 'm', label='1', s = 30)
index2 = where(labelMat == -1)
ax.scatter(dataMat[index2,0],dataMat[index2,1],marker = '+', color = 'c', label='2', s = 50)
plt.show()


結果如圖


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章