from numpy import *
def loadDataSet(): #遍歷函數,打開文本文件testSet.txt並進行逐行讀取
dataMat = []
labelMat = []
fr = open('testSet.txt')
for line in fr.readlines():
lineArr = line.strip().split() #去掉文件中換行符且劃分文件爲行
dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) #將X0的值設爲1,因爲公式w0+w1x1+w2x2
labelMat.append(int(lineArr[2]))
return dataMat,labelMat
def sigmoid(inX): #sigmoid函數
return 1.0/(1+exp(-inX))
def gradAscent(dataMatIn, classLabels): #梯度上升算法計算最佳迴歸係數
dataMatrix = mat(dataMatIn) #獲得輸入數據並將樣本數組轉換爲矩陣
labelMat = mat(classLabels).transpose() #將類標籤數組轉換爲項鍊並將其轉置
m,n = shape(dataMatrix) #得到矩陣的大小
alpha = 0.001 #步長
maxCycles = 500 #迭代次數
weights = ones((n,1)) #迴歸係數初始化爲1,n*1的向量
for k in range(maxCycles): #遍歷數組
h = sigmoid(dataMatrix*weights) #h是一個列向量,元素個數等於樣本個數,矩陣相乘
error = (labelMat - h) #誤差計算,向量減法運算
weights = weights + alpha * dataMatrix.transpose()* error #矩陣相乘,dataMatrix.transpose()*error就是梯度f(w)
return weights
def plotBestFit(weights): #畫出訓練點
import matplotlib.pyplot as plt
dataMat,labelMat=loadDataSet() #畫點
dataArr = array(dataMat)
n = shape(dataArr)[0]
xcord1 = []; ycord1 = []
xcord2 = []; ycord2 = []
for i in range(n):
if int(labelMat[i])== 1:
xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
else:
xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
ax.scatter(xcord2, ycord2, s=30, c='green')
x = arange(-3.0, 3.0, 0.1) #畫線,x取值區間爲[-3.0,3.0],步長爲0.1
y = (-weights[0]-weights[1]*x)/weights[2]
ax.plot(x, y)
plt.xlabel('X1’)
plt.ylabel('X2')
plt.show() #顯示
def stocGradAscent0(dataMatrix, classLabels): #隨機梯度上升算法
m,n = shape(dataMatrix)
alpha = 0.01
weights = ones(n) #初始化單位矩陣,維度爲數據集列數
for i in range(m):
h = sigmoid(sum(dataMatrix[i]*weights))
error = classLabels[i] - h
weights = weights + alpha * error * dataMatrix[i]
return weights
def stocGradAscent1(dataMatrix, classLabels, numIter=150): #升級後的梯度上升算法——隨機梯度下降
m,n = shape(dataMatrix)
weights = ones(n) #i初始化單位矩陣
for j in range(numIter):
dataIndex = range(m)
for i in range(m):
alpha = 4/(1.0+j+i)+0.0001 #alpha的值每次迭代時都會進行調整,會緩解數據波動或者高頻波動
randIndex = int(random.uniform(0,len(dataIndex))) #隨機選取更新迴歸係數,減少週期性波動
h = sigmoid(sum(dataMatrix[randIndex]*weights)) #梯度計算的結果,一個列向量
error = classLabels[randIndex] - h
weights = weights + alpha * error * dataMatrix[randIndex]
del(dataIndex[randIndex])
return weights
def classifyVector(inX, weights):
prob = sigmoid(sum(inX*weights)) #判別算法
if prob > 0.5: return 1.0 #prob>0.5,返回爲1
else: return 0.0 #否則,返回0
def colicTest(): #隨機梯度算法實例
frTrain = open('horseColicTraining.txt')
frTest = open('horseColicTest.txt') #導入訓練集文件
trainingSet = []
trainingLabels = []
for line in frTrain.readlines():
currLine = line.strip().split('\t')
lineArr =[]
for i in range(21):
lineArr.append(float(currLine[i]))
trainingSet.append(lineArr) #構建訓練數據集
trainingLabels.append(float(currLine[21])) #構建分類標籤訓練集
trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000)
errorCount = 0
numTestVec = 0.0
for line in frTest.readlines():
numTestVec += 1.0
currLine = line.strip().split('\t')
lineArr =[]
for i in range(21):
lineArr.append(float(currLine[i]))
if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):對輸入向量分類,currLine[21]爲分類標籤
errorCount += 1 #如果不相等,誤差數+1
errorRate = (float(errorCount)/numTestVec) #最後計算誤差率:誤差數/記錄數
print "the error rate of this test is: %f" % errorRate
return errorRate
def multiTest():
numTests = 10; errorSum=0.0
for k in range(numTests):
errorSum += colicTest()
print "after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests))
1.優點:計算代價不高,易於理解和實現
缺點:容易欠擬合,分類精度可能不高
2.對迴歸方法的認識(這裏我是根據Andrew ng的Machine Learning課程的課件整理的內容)
給出一個房屋銷售的例子,我們知道房屋價格收到很多因素的影響。現在探討房屋面積與房屋價格的關係,設X軸爲面積,Y軸爲價格,可得到一個關係圖,接着我們做出一條曲線去儘可能的擬合這些數據
1>首先給出一些常用的概念和符號:
房屋銷售記錄表:訓練集(訓練數據),是流程中的輸入數據,稱爲X(特徵)
房屋銷售價格:輸出數據,稱爲Y(目標變量)
擬合的函數:假設(模型),一般寫作Y=h(x)
訓練數據的條目數:輸入數據的維度n(特徵的個數)
2>機器學習的過程
3>線性迴歸
我們用x1,x2...,xn來描述特徵裏的分量,如x1是房屋面積,x2是房屋朝向等等。
於是得出一個估計函數:
接下來我們對h函數進行評估,做出一個損失函數J:
我們的目標是得到最小J(theta),這個函數是對x(i)的估計值與真實值y(i)差的平方和的錯誤估計函數,i/2用來在求導時消去係數
如何調整theta以得到J(theta)最小值有很多方法,上面的代碼我們使用了梯度上升和梯度下降的方法。另外我們還有最小二乘法等。
4>梯度下降法
在選定線性迴歸模型後,我們只需要確定參數theta,就可以將模型用來預測,而theta要在J(theta)最小時才能確定,故問題轉化爲求極值的問題。
而梯度下降法最大的問題在於求出的解可能是局部最小值也可能是全局最小值,這與初始點的選取有關。
梯度下降法的流程:
推導過程:
5.基於Logist迴歸和Sigmoid函數的分類
對於上面的分類器代碼實現,我們想要的函數應該是,能接受所有的輸入然後預測出類別,例如在兩個類的情況下,上述函數輸出0或1。(Heaviside step function具有這種性質,然而該函數的問題在於在跳躍點上從0瞬間到1,這個瞬間跳躍過程有時很難處理),Sigmoid函數具有相似的性質,且在數學上更易處理。具體計算公式爲:
爲實現Logist迴歸分類器,我們可以在每個特徵上都乘以一個迴歸係數,然後把所有結果值都相加,將總和代入Sigmoid函數中去,進而得到一個0-1之間的數值,任何大於0.5的數據被分入1類,小於0.5即被分入0類。所以Logist迴歸也可以被看成一種概率估計。
這就結合到我們之前講的算法了。通過看代碼可能可以更好地理解這些理論知識。