集成學習簡介
集成學習是機器學習中的一種思想,他通過多個模型的組合形成一個精度更高的模型,參與組合的模型稱爲弱學習器。在預測時使用這些弱學習器模型聯合進行預測;訓練時需要用訓練樣本集依次訓練出這些弱學習器。通俗來講就是:三個臭皮匠,頂個諸葛亮。常見的集成學習框架有:Bagging,Boosting。
Bagging特點:數據隨權重抽樣,並行構建分類器,投票。
Boosting特點:關注被錯分的樣本,串行構建分類器,加權投票。
集成學習在計算機視覺領域,計算機安全領域和電子醫療診斷領域已經有了較爲廣泛和成熟的應用。
原理簡介
隨機抽樣
在介紹具體的算法原理之前先談一下數據抽樣方法,抽樣值指的是從一個樣本數據集中隨機選取一些樣本,形成新的數據集,這裏有兩種選擇:有放回抽樣和無放回抽樣。其區別在於某次抽樣中被抽中過的樣本在其他抽樣回合時會不會再次抽中,會再次抽中的就是有放回,反之就是無放回。集成學習中數據集的生成就是對給定的樣本數據集進行有放回抽樣,生成更多的數據集。
Bagging
Bagging的全稱爲:Bootstrap Aggregating;這裏的Bootstrap就是一種隨機抽樣的方法,採用的是對訓練樣本集有放回抽樣,每次抽樣形成的數據集訓練一個弱學習器模型,以此得到多個獨立的弱學習器,最終用這些弱學習器的組合進行預測。
隨機森林
上述的Bagging算法只是一個抽象的框架,沒有指明具體的每個弱學習器模型的具體形式,當弱學習器是決策樹,即爲隨機森林。對於分類問題,一個測試樣本會送到每一顆決策樹中進行預測,然後投票,得票最多的類爲最終分類結果。對迴歸問題,計算上述模型的均值作爲最後的結果。(所有模型的重要性相同)
Boosting
Boosting不是對樣本數據集進行獨立的隨機抽樣構造訓練集,而是每一輪的訓練集不發生改變,訓練時重點關注被前一輪訓練中錯分的樣本。Boosting 訓練過程爲階梯狀,基模型的訓練是有順序的,每個基模型都會在前一個基模型學習的基礎上進行學習,最終綜合所有基模型的預測值產生最終的預測結果,用的比較多的綜合方式爲加權法。
AdaBoosting
AdaBoost(Adaptive Boosting,自適應增強),其自適應在於:前一個基本分類器分錯的樣本會得到加強,加權後的全體樣本再次被用來訓練下一個基本分類器。同時,在每一輪中加入一個新的弱分類器,直到達到某個預定的足夠小的錯誤率或達到預先指定的最大迭代次數。
Adaboost 迭代算法有三步:
1.初始化訓練樣本的權值分佈,每個樣本具有相同權重;
2.訓練弱分類器,如果樣本分類正確,則在構造下一個訓練集中,它的權值就會被降低;反之提高。用更新過的樣本集去訓練下一個分類器;
3.將所有弱分類組合成強分類器,各個弱分類器的訓練過程結束後,加大分類誤差率小的弱分類器的權重,降低分類誤差率大的弱分類器的權重。
細節
錯誤率:
樣本權重:
正確樣本權重:
錯誤樣本權重:
算法是通過一輪輪的弱學習器學習,利用前一個弱學習器的結果來更新後一個弱學習器的訓練集權重。第 k 輪的強學習器爲:
優缺點
優點:
分類精度高;
可以用各種迴歸分類模型來構建弱學習器,非常靈活;
不容易發生過擬合。
缺點:
對異常點敏感,異常點會獲得較高權重。
實現代碼
Func1: loadSimpData()
def loadSimpData():
'''
load data
:return: dataMat(特徵向量),classlabels(標籤)
'''
datMat = matrix([[1., 2.1],
[2., 1.1],
[1.3, 1.],
[1., 1.],
[2., 1.]])
classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]
return datMat, classLabels
Func2: stumpClassify(dataMatrix, dimen, threshVal, threshIneq) 單決策樹分類
def stumpClassify(dataMatrix, dimen, threshVal, threshIneq): # just classify the data
'''
單決策樹分類
:param dataMatrix:特徵矩陣
:param dimen: 特徵對應維度
:param threshVal:分類閾值
:param threshIneq: 分類標準(大於或者小於)
:return:預測類別結果
'''
retArray = ones((shape(dataMatrix)[0], 1))
if threshIneq == 'lt':
retArray[dataMatrix[:, dimen] <= threshVal] = -1.0
else:
retArray[dataMatrix[:, dimen] > threshVal] = -1.0
return retArray
Func3:buildStump(dataArr, classLabels, D) 構建最佳單層決策樹
def buildStump(dataArr, classLabels, D):
'''
構建最佳單層決策樹
:param dataArr:dataSet
:param classLabels:類別標籤
:param D:權重
:return:最佳決策樹,最小誤差,分類結果
'''
dataMatrix = mat(dataArr)
labelMat = mat(classLabels).T
m, n = shape(dataMatrix)
numSteps = 10.0
bestStump = {}
bestClasEst = mat(zeros((m, 1)))
minError = inf # init error sum, to +infinity
for i in range(n): # loop over all dimensions
rangeMin = dataMatrix[:, i].min()
rangeMax = dataMatrix[:, i].max()
stepSize = (rangeMax - rangeMin) / numSteps # 設置迭代步長
for j in range(-1, int(numSteps) + 1): # loop over all range in current dimension
for inequal in ['lt', 'gt']: # go over less than and greater than
threshVal = (rangeMin + float(j) * stepSize)
predictedVals = stumpClassify(dataMatrix, i, threshVal,
inequal) # call stump classify with i, j, lessThan
errArr = mat(ones((m, 1)))
errArr[predictedVals == labelMat] = 0
weightedError = D.T * errArr # 計算加權錯誤率 calc total error multiplied by D
# print "split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (i, threshVal, inequal, weightedError)
if weightedError < minError:
minError = weightedError
bestClasEst = predictedVals.copy()
bestStump['dim'] = i
bestStump['thresh'] = threshVal
bestStump['ineq'] = inequal
return bestStump, minError, bestClasEst
Func4:adaBoostTrainDS(dataArr, classLabels, numIt=40) 訓練多個弱分類器,得到各分類器的權重
def adaBoostTrainDS(dataArr, classLabels, numIt=40):
'''
訓練多個弱分類器,得到各分類器的權重
:param dataArr:dataSet
:param classLabels:分類標籤
:param numIt:迭代次數
:return:弱分類器和對應權重
'''
weakClassArr = []
m = shape(dataArr)[0]
D = mat(ones((m, 1)) / m) # init D to all equal
aggClassEst = mat(zeros((m, 1)))
for i in range(numIt):
bestStump, error, classEst = buildStump(dataArr, classLabels, D) # build Stump
print("D:",D.T)
alpha = float(
0.5 * log((1.0 - error) / max(error, 1e-16))) # calc alpha, throw in max(error,eps) to account for error=0
bestStump['alpha'] = alpha
weakClassArr.append(bestStump) # store Stump Params in Array
print("classEst: ",classEst.T)
# 對應原理中的公式
expon = multiply(-1 * alpha * mat(classLabels).T, classEst) # exponent for D calc, getting messy
D = multiply(D, exp(expon)) # Calc New D for next iteration
D = D / D.sum()
# calc training error of all classifiers, if this is 0 quit for loop early (use break)
aggClassEst += alpha * classEst
print("aggClassEst: ",aggClassEst.T)
aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T, ones((m, 1)))
errorRate = aggErrors.sum() / m
print("total error: ", errorRate)
if errorRate == 0.0: break # 這裏注意當多種分類器的加權結果已經可以始總誤差降爲0時即可推出
return weakClassArr, aggClassEst
Func5: adaClassify(datToClass, classifierArr)測試分類器
def adaClassify(datToClass, classifierArr):
'''
測試訓練好的分類器
:param datToClass:testdata
:param classifierArr: 分類器
:return: 分類結果
'''
dataMatrix = mat(datToClass) # do stuff similar to last aggClassEst in adaBoostTrainDS
m = shape(dataMatrix)[0]
aggClassEst = mat(zeros((m, 1)))
for i in range(len(classifierArr)):
classEst = stumpClassify(dataMatrix, classifierArr[i]['dim'], classifierArr[i]['thresh'],
classifierArr[i]['ineq']) # call stump classify
aggClassEst += classifierArr[i]['alpha'] * classEst
#print(aggClassEst)
return sign(aggClassEst)