決策樹----機器學習讀書筆記

優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵數據。
缺點：可能會產生過度匹配問題。
適用數據類型：數值型和標稱型。

步驟：

收集原始數據集（數據向量及特徵標籤），數據向量最後一項爲分類標籤
以分類標籤爲基準，計算該原始數據集的熵E0
根據特徵標籤，分別計算按特徵劃分數據集後的子數據集的熵Ei，E0-Ei爲該劃分的信息增益，選擇信息增益最大的劃分（這表示該劃分熵最小，最有序）
對每個劃分的子數據集使用步驟3的方式繼續劃分
如果劃分的子數據集爲分類標籤則停止；如果劃分的子數據集只有一個分類則停止
以字典形式記錄數據集按特徵劃分的結構（可存儲到文件，以便後期直接載入使用）
輸入待預測數據向量，根據決策樹特徵劃分進行遍歷，最終獲取預測分類標籤。

創建分支的僞代碼函數createBranch() 如下所示：

檢測數據集中的每個子項是否屬於同一分類：
    If so return 類標籤；
    Else
        尋找劃分數據集的最好特徵
        劃分數據集
        創建分支節點
            for 每個劃分的子集
                調用函數createBranch並增加返回結果到分支節點中
        return 分支節點

香農熵計算公式：

構建決策樹工作原理如下：
得到原始數據集，然後基於最好的屬性值劃分數據集，由於特徵值可能多於兩個，因此可能存在大於兩個分支的數據集劃分。第一次劃分之後，數據將被向下傳遞到樹分支的下一個節點，在這個節點上，我們可以再次劃分數據。因此我們可以採用遞歸的原則處理數據集。

遞歸結束的條件是：程序遍歷完所有劃分數據集的屬性，或者每個分支下的所有實例都具有相同的分類。如果所有實例具有相同的分類，則得到一個葉子節點或者終止塊。

import math

#創建數據集
def createDataSet():
    dataSet = [[1, 1, 'yes']
              ,[1, 1, 'yes']
              ,[1, 0, 'no']
              ,[0, 1, 'no']
              ,[0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels


#計算給定數據集的香農熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob*math.log(prob, 2)
    return shannonEnt

#按給定特徵劃分數據集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

#選擇最好的數據集劃分方式，返回劃分特徵
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):
        featList = [x[i] for x in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        #計算第i個特徵劃分後的信息增益
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob*calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        #尋找最大信息增益的特徵，信息增益表示：劃分後香農熵變化程度（從混亂到不混亂，香農熵會減小）
        if(infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

#出現最多的分類名稱
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=lambda x: x[1], reverse=True)
    return sortedClassCount[0][0]

#創建樹（訓練決策樹）
def createTree(dataSet, labels):
    classList = [x[-1] for x in dataSet]
    #類別完全相同則停止劃分
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    #遍歷完所有特徵，返回出現概率最高的分類
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [x[bestFeat] for x in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

myData, labels = createDataSet()
myTree = createTree(myData, labels)
print(myTree)
#使用決策樹的分類函數
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel
myData, labels = createDataSet()
classify(myTree, labels, [1, 1])

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

決策樹----機器學習讀書筆記

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

決策樹----機器學習讀書筆記

Scrapy框架----爬蟲讀書筆記

Spark與機器學習----數據的獲取、處理與準備

樸素貝葉斯----機器學習讀書筆記

數據分析方法論（6種方法，8個思路）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結