決策樹----機器學習讀書筆記

優點:計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵數據。
缺點:可能會產生過度匹配問題。
適用數據類型:數值型和標稱型。

步驟:

  1. 收集原始數據集(數據向量及特徵標籤),數據向量最後一項爲分類標籤
  2. 以分類標籤爲基準,計算該原始數據集的熵E0
  3. 根據特徵標籤,分別計算按特徵劃分數據集後的子數據集的熵Ei,E0-Ei爲該劃分的信息增益,選擇信息增益最大的劃分(這表示該劃分熵最小,最有序)
  4. 對每個劃分的子數據集使用步驟3的方式繼續劃分
  5. 如果劃分的子數據集爲分類標籤則停止;如果劃分的子數據集只有一個分類則停止
  6. 以字典形式記錄數據集按特徵劃分的結構(可存儲到文件,以便後期直接載入使用)
  7. 輸入待預測數據向量,根據決策樹特徵劃分進行遍歷,最終獲取預測分類標籤。

創建分支的僞代碼函數createBranch() 如下所示:

檢測數據集中的每個子項是否屬於同一分類:
    If so return 類標籤;
    Else
        尋找劃分數據集的最好特徵
        劃分數據集
        創建分支節點
            for 每個劃分的子集
                調用函數createBranch並增加返回結果到分支節點中
        return 分支節點

香農熵計算公式:


構建決策樹工作原理如下:
    得到
原始數據集,然後基於最好的屬性值劃分數據集,由於特徵值可能多於兩個,因此可能存在大於兩個分支的數據集劃分。第一次劃分之後,數據將被向下傳遞到樹分支的下一個節點,在這個節點上,我們可以再次劃分數據。因此我們可以採用遞歸的原則處理數據集。

    遞歸結束的條件是:程序遍歷完所有劃分數據集的屬性,或者每個分支下的所有實例都具有相同的分類。如果所有實例具有相同的分類,則得到一個葉子節點或者終止塊。

import math

#創建數據集
def createDataSet():
    dataSet = [[1, 1, 'yes']
              ,[1, 1, 'yes']
              ,[1, 0, 'no']
              ,[0, 1, 'no']
              ,[0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels


#計算給定數據集的香農熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob*math.log(prob, 2)
    return shannonEnt

#按給定特徵劃分數據集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

#選擇最好的數據集劃分方式,返回劃分特徵
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):
        featList = [x[i] for x in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        #計算第i個特徵劃分後的信息增益
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob*calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        #尋找最大信息增益的特徵,信息增益表示:劃分後香農熵變化程度(從混亂到不混亂,香農熵會減小)
        if(infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

#出現最多的分類名稱
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=lambda x: x[1], reverse=True)
    return sortedClassCount[0][0]

#創建樹(訓練決策樹)
def createTree(dataSet, labels):
    classList = [x[-1] for x in dataSet]
    #類別完全相同則停止劃分
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    #遍歷完所有特徵,返回出現概率最高的分類
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [x[bestFeat] for x in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

myData, labels = createDataSet()
myTree = createTree(myData, labels)
print(myTree)
#使用決策樹的分類函數
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel
myData, labels = createDataSet()
classify(myTree, labels, [1, 1])



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章