統計學習方法 第八章習題答案

8.1

題目:
某公司招聘職員考查身體、業務能力、發展潛力這3項.身體分爲合格1、不合格0兩級,業務能力和發展潛力分爲上1、中2、下3三級.分類爲合格1、不合格-1兩類.已知10個人的數據,如下表所示.假設弱分類器爲決策樹樁.試用AdaBoost算法學習一個強分類器.
在這裏插入圖片描述
解答:
考慮計算量,本題就不手算了。AdaBoost的代碼參考《機器學習實戰》相關部分。
先放一張樣本的散點圖。
在這裏插入圖片描述
具體代碼:

# -*-coding:utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits import mplot3d
def loadSimpData():
    """
    創建單層決策樹的數據集
    Parameters:
        無
    Returns:
        dataMat - 數據矩陣
        classLabels - 數據標籤
    """
    dataMat = np.matrix([[0., 1., 3.],
                      [0., 3., 1.],
                      [1., 2., 2.],
                      [1., 1., 3.],
                      [1., 2., 3.],
                      [0., 1., 2.],
                      [1., 1., 2.],
                      [1., 1., 1.],
                      [1., 3., 1.],
                      [0., 2., 1.]])
    classLabels = np.matrix([-1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 1.0, 1.0, -1.0, -1.0])
    return dataMat, classLabels

def showDataSet(dataMat, labelMat):
    """
    數據可視化
    Parameters:
        dataMat - 數據矩陣
        labelMat - 數據標籤
    Returns:
        無
    """
    ax = plt.axes(projection='3d')
    data_plus = []  #正樣本
    data_minus = [] #負樣本
    labelMat = labelMat.T   #label矩陣轉置
    #將數據集分別存放到正負樣本的矩陣
    for i in range(len(dataMat)):
        if labelMat[i] > 0:
            data_plus.append(dataMat[i])
        else:
            data_minus.append(dataMat[i])
    data_plus_np = np.array(data_plus)      #轉換爲numpy矩陣
    data_minus_np = np.array(data_minus)    #轉換爲numpy矩陣
    ax.scatter(np.transpose(data_plus_np)[0], np.transpose(data_plus_np)[1], np.transpose(data_plus_np)[2], c='r')        #正樣本散點圖
    ax.scatter(np.transpose(data_minus_np)[0], np.transpose(data_minus_np)[1], np.transpose(data_minus_np)[2], c='b')     #負樣本散點圖
    plt.show()

def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
    """
    單層決策樹分類函數
    Parameters:
        dataMatrix - 數據矩陣
        dimen - 第dimen列,也就是第幾個特徵
        threshVal - 閾值
        threshIneq - 標誌
    Returns:
        retArray - 分類結果
    """
    retArray = np.ones((np.shape(dataMatrix)[0], 1))  # 初始化retArray爲1
    if threshIneq == 'lt':
        retArray[dataMatrix[:, dimen] <= threshVal] = -1.0  # 如果小於閾值,則賦值爲-1
    else:
        retArray[dataMatrix[:, dimen] > threshVal] = -1.0  # 如果大於閾值,則賦值爲-1
    return retArray

def buildStump(dataArr, classLabels, D):
    """
    找到數據集上最佳的單層決策樹
    Parameters:
        dataArr - 數據矩陣
        classLabels - 數據標籤
        D - 樣本權重
    Returns:
        bestStump - 最佳單層決策樹信息
        minError - 最小誤差
        bestClasEst - 最佳的分類結果
    """
    dataMatrix = np.mat(dataArr)
    labelMat = np.mat(classLabels).T
    m, n = np.shape(dataMatrix)
    numSteps = 10.0
    bestStump = {}
    bestClasEst = np.mat(np.zeros((m, 1)))
    minError = float('inf')  # 最小誤差初始化爲正無窮大
    for i in range(n):  # 遍歷所有特徵
        rangeMin = dataMatrix[:, i].min()
        rangeMax = dataMatrix[:, i].max()  # 找到特徵中最小的值和最大值
        stepSize = (rangeMax - rangeMin) / numSteps  # 計算步長
        for j in range(-1, int(numSteps) + 1):
            for inequal in ['lt', 'gt']:  # 大於和小於的情況,均遍歷。lt:less than,gt:greater than
                threshVal = (rangeMin + float(j) * stepSize)  # 計算閾值
                predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal)  # 計算分類結果
                errArr = np.mat(np.ones((m, 1)))  # 初始化誤差矩陣
                errArr[predictedVals == labelMat] = 0  # 分類正確的,賦值爲0
                weightedError = D.T * errArr  # 計算誤差
                print("split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (
                i, threshVal, inequal, weightedError))
                if weightedError < minError:  # 找到誤差最小的分類方式
                    minError = weightedError
                    bestClasEst = predictedVals.copy()
                    bestStump['dim'] = i
                    bestStump['thresh'] = threshVal
                    bestStump['ineq'] = inequal
    return bestStump, minError, bestClasEst

def adaBoostTrainDS(dataArr, classLabels, numIt=40):
	"""
    完整決策樹訓練
    Parameters:
        dataArr - 數據矩陣
        classLabels - 數據標籤
        numIt - 默認迭代次數
    Returns:
        weakClassArr- 完整決策樹信息
        aggClassEst- 最終訓練數據權值分佈
    """
    weakClassArr = []
    m = np.shape(dataArr)[0]
    D = np.mat(np.ones((m, 1)) / m)  # 初始化權重
    aggClassEst = np.mat(np.zeros((m, 1)))
    for i in range(numIt):
        bestStump, error, classEst = buildStump(dataArr, classLabels, D)  # 構建單層決策樹
        print("D:", D.T)
        alpha = float(0.5 * np.log((1.0 - error) / max(error, 1e-16)))  # 計算弱學習算法權重alpha,使error不等於0,因爲分母不能爲0
        bestStump['alpha'] = alpha  # 存儲弱學習算法權重
        weakClassArr.append(bestStump)  # 存儲單層決策樹
        print("classEst: ", classEst.T)
        expon = np.multiply(-1 * alpha * np.mat(classLabels).T, classEst)  # 計算e的指數項
        D = np.multiply(D, np.exp(expon))
        D = D / D.sum()  # 根據樣本權重公式,更新樣本權重
        # 計算AdaBoost誤差,當誤差爲0的時候,退出循環
        aggClassEst += alpha * classEst
        print("aggClassEst: ", aggClassEst.T)
        aggErrors = np.multiply(np.sign(aggClassEst) != np.mat(classLabels).T, np.ones((m, 1)))  # 計算誤差
        errorRate = aggErrors.sum() / m
        print("total error: ", errorRate)
        if errorRate == 0.0:
            break  # 誤差爲0,退出循環
    return weakClassArr, aggClassEst

if __name__ == '__main__':
    dataArr, classLabels = loadSimpData()
    #showDataSet(dataArr, classLabels)
    weakClassArr, aggClassEst = adaBoostTrainDS(dataArr, classLabels)
    print(weakClassArr)
    print(aggClassEst)
得到最終的分類器爲:
[{'dim': 0, 'thresh': -0.1, 'ineq': 'gt', 'alpha': 0.6931471805599453}, {'dim': 1, 'thresh': 1.0, 'ineq': 'gt', 'alpha': 0.7331685343967135}, {'dim': 2, 'thresh': 1.0, 'ineq': 'gt', 'alpha': 0.49926441505556346}, {'dim': 0, 'thresh': 0.0, 'ineq': 'lt', 'alpha': 0.5815754049028404}, {'dim': 0, 'thresh': -0.1, 'ineq': 'gt', 'alpha': 0.5319130862913471}, {'dim': 2, 'thresh': 2.0, 'ineq': 'gt', 'alpha': 0.5454786561898411}]
最終訓練數據權值分佈:
[[-2.11821021]
 [-1.49506113]
 [-1.33043916]
 [-0.9550594 ]
 [-2.42139647]
 [-1.0272529 ]
 [ 0.13589791]
 [ 1.13442674]
 [-0.33191033]
 [-1.49506113]]

8.2

題目:
比較支持向量機、AdaBoost、的學習策略與算法.
解答:
支持向量機:
(1)學習策略:極小化正則化合頁損失,最大間隔法
(2)算法:序列最小最優化算法
AdaBoost:
(1)學習策略:極小化加法模型的指數損失
(2)算法:前向分步加法算法
邏輯斯諦迴歸模型:
(1)學習策略:極大對數似然函數,正則化的極大似然估計
(2)算法:改進的迭代尺度算法,梯度下降,擬牛頓

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章