缺點:可能會產生過度匹配問題。
適用數據類型:數值型和標稱型。
步驟:
- 收集原始數據集(數據向量及特徵標籤),數據向量最後一項爲分類標籤
- 以分類標籤爲基準,計算該原始數據集的熵E0
- 根據特徵標籤,分別計算按特徵劃分數據集後的子數據集的熵Ei,E0-Ei爲該劃分的信息增益,選擇信息增益最大的劃分(這表示該劃分熵最小,最有序)
- 對每個劃分的子數據集使用步驟3的方式繼續劃分
- 如果劃分的子數據集爲分類標籤則停止;如果劃分的子數據集只有一個分類則停止
- 以字典形式記錄數據集按特徵劃分的結構(可存儲到文件,以便後期直接載入使用)
- 輸入待預測數據向量,根據決策樹特徵劃分進行遍歷,最終獲取預測分類標籤。
創建分支的僞代碼函數createBranch() 如下所示:
檢測數據集中的每個子項是否屬於同一分類:
If so return 類標籤;
Else
尋找劃分數據集的最好特徵
劃分數據集
創建分支節點
for 每個劃分的子集
調用函數createBranch並增加返回結果到分支節點中
return 分支節點
香農熵計算公式:
構建決策樹工作原理如下:
得到原始數據集,然後基於最好的屬性值劃分數據集,由於特徵值可能多於兩個,因此可能存在大於兩個分支的數據集劃分。第一次劃分之後,數據將被向下傳遞到樹分支的下一個節點,在這個節點上,我們可以再次劃分數據。因此我們可以採用遞歸的原則處理數據集。
遞歸結束的條件是:程序遍歷完所有劃分數據集的屬性,或者每個分支下的所有實例都具有相同的分類。如果所有實例具有相同的分類,則得到一個葉子節點或者終止塊。
import math
#創建數據集
def createDataSet():
dataSet = [[1, 1, 'yes']
,[1, 1, 'yes']
,[1, 0, 'no']
,[0, 1, 'no']
,[0, 1, 'no']]
labels = ['no surfacing', 'flippers']
return dataSet, labels
#計算給定數據集的香農熵
def calcShannonEnt(dataSet):
numEntries = len(dataSet)
labelCounts = {}
for featVec in dataSet:
currentLabel = featVec[-1]
if currentLabel not in labelCounts.keys():
labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1
shannonEnt = 0.0
for key in labelCounts:
prob = float(labelCounts[key])/numEntries
shannonEnt -= prob*math.log(prob, 2)
return shannonEnt
#按給定特徵劃分數據集
def splitDataSet(dataSet, axis, value):
retDataSet = []
for featVec in dataSet:
if featVec[axis] == value:
reducedFeatVec = featVec[:axis]
reducedFeatVec.extend(featVec[axis+1:])
retDataSet.append(reducedFeatVec)
return retDataSet
#選擇最好的數據集劃分方式,返回劃分特徵
def chooseBestFeatureToSplit(dataSet):
numFeatures = len(dataSet[0]) - 1
baseEntropy = calcShannonEnt(dataSet)
bestInfoGain = 0.0
bestFeature = -1
for i in range(numFeatures):
featList = [x[i] for x in dataSet]
uniqueVals = set(featList)
newEntropy = 0.0
#計算第i個特徵劃分後的信息增益
for value in uniqueVals:
subDataSet = splitDataSet(dataSet, i, value)
prob = len(subDataSet)/float(len(dataSet))
newEntropy += prob*calcShannonEnt(subDataSet)
infoGain = baseEntropy - newEntropy
#尋找最大信息增益的特徵,信息增益表示:劃分後香農熵變化程度(從混亂到不混亂,香農熵會減小)
if(infoGain > bestInfoGain):
bestInfoGain = infoGain
bestFeature = i
return bestFeature
#出現最多的分類名稱
def majorityCnt(classList):
classCount = {}
for vote in classList:
if vote not in classCount.keys():
classCount[vote] = 0
classCount[vote] += 1
sortedClassCount = sorted(classCount.items(), key=lambda x: x[1], reverse=True)
return sortedClassCount[0][0]
#創建樹(訓練決策樹)
def createTree(dataSet, labels):
classList = [x[-1] for x in dataSet]
#類別完全相同則停止劃分
if classList.count(classList[0]) == len(classList):
return classList[0]
#遍歷完所有特徵,返回出現概率最高的分類
if len(dataSet[0]) == 1:
return majorityCnt(classList)
bestFeat = chooseBestFeatureToSplit(dataSet)
bestFeatLabel = labels[bestFeat]
myTree = {bestFeatLabel:{}}
del(labels[bestFeat])
featValues = [x[bestFeat] for x in dataSet]
uniqueVals = set(featValues)
for value in uniqueVals:
subLabels = labels[:]
myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
return myTree
myData, labels = createDataSet()
myTree = createTree(myData, labels)
print(myTree)
#使用決策樹的分類函數
def classify(inputTree, featLabels, testVec):
firstStr = list(inputTree.keys())[0]
secondDict = inputTree[firstStr]
featIndex = featLabels.index(firstStr)
for key in secondDict.keys():
if testVec[featIndex] == key:
if type(secondDict[key]).__name__ == 'dict':
classLabel = classify(secondDict[key], featLabels, testVec)
else:
classLabel = secondDict[key]
return classLabel
myData, labels = createDataSet()
classify(myTree, labels, [1, 1])