[機器學習實戰]決策樹

https://www.cnblogs.com/mantoudev/p/8900126.html

1. 簡介

決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取淨現值的期望值大於等於零的概率，評價項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹，故稱決策樹。在機器學習中，決策樹是一個預測模型，他代表的是對象屬性與對象值之間的一種映射關係。Entropy = 系統的凌亂程度，使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基於信息學理論中熵的概念。

決策樹是一種樹形結構，其中每個內部節點表示一個屬性上的測試，每個分支代表一個測試輸出，每個葉節點代表一種類別。

決策樹學習通常包括 3 個步驟：

特徵選擇
決策樹的生成
決策樹的修剪

1.1 決策樹場景

場景一：二十個問題

有一個叫 “二十個問題” 的遊戲，遊戲規則很簡單：參與遊戲的一方在腦海中想某個事物，其他參與者向他提問，只允許提 20 個問題，問題的答案也只能用對或錯回答。問問題的人通過推斷分解，逐步縮小待猜測事物的範圍，最後得到遊戲的答案。

場景二：郵件分類

一個郵件分類系統，大致工作流程如下：

首先檢測發送郵件域名地址。如果地址爲 myEmployer.com, 則將其放在分類 "無聊時需要閱讀的郵件"中。
如果郵件不是來自這個域名，則檢測郵件內容裏是否包含單詞 "曲棍球" , 如果包含則將郵件歸類到 "需要及時處理的朋友郵件",
如果不包含則將郵件歸類到 "無需閱讀的垃圾郵件" 。

1.2 定義

分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點（node）和有向邊（directed edge）組成。

結點有兩種類型：

內部結點（internal node）：表示一個特徵或屬性。
葉結點（leaf： node）：表示一個類。

用決策樹分類，從根節點開始，對實例的某一特徵進行測試，根據測試結果，將實例分配到其子結點；這時，每一個子結點對應着該特徵的一個取值。如此遞歸地對實例進行測試並分配，直至達到葉結點。最後將實例分配到葉結點的類中。

2. 決策樹原理

熵：
熵（entropy）指的是體系的混亂的程度，在不同的學科中也有引申出的更爲具體的定義，是各領域十分重要的參量。
信息熵（香農熵）：
是一種信息的度量方式，表示信息的混亂程度，也就是說：信息越有序，信息熵越低。例如：火柴有序放在火柴盒裏，熵值很低，相反，熵值很高。
信息增益：
在劃分數據集前後信息發生的變化稱爲信息增益。

2.1 工作原理

我們使用 createBranch() 方法構造一個決策樹，如下所示：

檢測數據集中的所有數據的分類標籤是否相同:
    If so return 類標籤
    Else:
        尋找劃分數據集的最好特徵（劃分之後信息熵最小，也就是信息增益最大的特徵）
        劃分數據集
        創建分支節點
            for 每個劃分的子集
                調用函數 createBranch （創建分支的函數）並增加返回結果到分支節點中
        return 分支節點

2.2 決策樹開發流程

1. 收集數據：可以使用任何方法。
2. 準備數據：樹構造算法只適用於標稱型數據，因此數值型數據必須離散化。
3. 分析數據：可以使用任何方法，構造樹完成之後，我們應該檢查圖形是否符合預期。
4. 訓練算法：構造樹的數據結構。
5. 測試算法：使用經驗樹計算錯誤率。（經驗樹沒有搜索到較好的資料，有興趣的同學可以來補充）
6. 使用算法：此步驟可以適用於任何監督學習算法，而使用決策樹可以更好地理解數據的內在含義。

2.3 決策樹算法特點

優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵數據。
缺點：可能會產生過度匹配問題。
適用數據類型：數值型和標稱型。

3. 實戰案例

3.1 項目概述

根據以下 2 個特徵，將動物分成兩類：魚類和非魚類。

特徵：

不浮出水面是否可以生存
是否有腳蹼

3.2 開發流程

(1) 收集數據

可以使用任何方法

我們利用 createDataSet() 函數輸入數據：

def createDataSet():
    dataSet = [[1, 1, 'yes'],
            [1, 1, 'yes'],
            [1, 0, 'no'],
            [0, 1, 'no'],
            [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

(2) 準備數據

樹構造算法只適用於標稱型數據，因此數值型數據必須離散化

此處，由於我們輸入的數據本身就是離散化數據，所以這一步就省略了。

（3）分析數據

可以使用任何方法，構造樹完成之後，我們應該檢查圖形是否符合預期

計算給定數據集的香農熵的函數

def calcShannonEnt(dataSet):
    # 求list的長度，表示計算參與訓練的數據量
    numEntries = len(dataSet)
    # 計算分類標籤label出現的次數
    labelCounts = {}
    # the the number of unique elements and their occurance
    for featVec in dataSet:
        # 將當前實例的標籤存儲，即每一行數據的最後一個數據代表的是標籤
        currentLabel = featVec[-1]
        # 爲所有可能的分類創建字典，如果當前的鍵值不存在，則擴展字典並將當前鍵值加入字典。每個鍵值都記錄了當前類別出現的次數。
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1

    # 對於 label 標籤的佔比，求出 label 標籤的香農熵
    shannonEnt = 0.0
    for key in labelCounts:
        # 使用所有類標籤的發生頻率計算類別出現的概率。
        prob = float(labelCounts[key])/numEntries
        # 計算香農熵，以 2 爲底求對數
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt

按照給定特徵劃分數據集

將指定特徵的特徵值等於 value 的行剩下列作爲子數據集。

def splitDataSet(dataSet, index, value):
    """splitDataSet(通過遍歷dataSet數據集，求出index對應的colnum列的值爲value的行)
        就是依據index列進行分類，如果index列的數據等於 value的時候，就要將 index 劃分到我們創建的新的數據集中
    Args:
        dataSet 數據集                 待劃分的數據集
        index 表示每一行的index列        劃分數據集的特徵
        value 表示index列對應的value值   需要返回的特徵的值。
    Returns:
        index列爲value的數據集【該數據集需要排除index列】
    """
    retDataSet = []
    for featVec in dataSet: 
        # index列爲value的數據集【該數據集需要排除index列】
        # 判斷index列的值是否爲value
        if featVec[index] == value:
            # chop out index used for splitting
            # [:index]表示前index行，即若 index 爲2，就是取 featVec 的前 index 行
            reducedFeatVec = featVec[:index]
            '''
            請百度查詢一下： extend和append的區別
            list.append(object) 向列表中添加一個對象object
            list.extend(sequence) 把一個序列seq的內容添加到列表中
            1、使用append的時候，是將new_media看作一個對象，整體打包添加到music_media對象中。
            2、使用extend的時候，是將new_media看作一個序列，將這個序列和music_media序列合併，並放在其後面。
            result = []
            result.extend([1,2,3])
            print result
            result.append([4,5,6])
            print result
            result.extend([7,8,9])
            print result
            結果：
            [1, 2, 3]
            [1, 2, 3, [4, 5, 6]]
            [1, 2, 3, [4, 5, 6], 7, 8, 9]
            '''
            reducedFeatVec.extend(featVec[index+1:])
            # [index+1:]表示從跳過 index 的 index+1行，取接下來的數據
            # 收集結果值 index列爲value的行【該行需要排除index列】
            retDataSet.append(reducedFeatVec)
    return retDataSet

選擇最好的數據集劃分方式

def chooseBestFeatureToSplit(dataSet):
    """chooseBestFeatureToSplit(選擇最好的特徵)

    Args:
        dataSet 數據集
    Returns:
        bestFeature 最優的特徵列
    """
    # 求第一行有多少列的 Feature, 最後一列是label列嘛
    numFeatures = len(dataSet[0]) - 1
    # 數據集的原始信息熵
    baseEntropy = calcShannonEnt(dataSet)
    # 最優的信息增益值, 和最優的Featurn編號
    bestInfoGain, bestFeature = 0.0, -1
    # iterate over all the features
    for i in range(numFeatures):
        # create a list of all the examples of this feature
        # 獲取對應的feature下的所有數據
        featList = [example[i] for example in dataSet]
        # get a set of unique values
        # 獲取剔重後的集合，使用set對list數據進行去重
        uniqueVals = set(featList)
        # 創建一個臨時的信息熵
        newEntropy = 0.0
        # 遍歷某一列的value集合，計算該列的信息熵 
        # 遍歷當前特徵中的所有唯一屬性值，對每個唯一屬性值劃分一次數據集，計算數據集的新熵值，並對所有唯一特徵值得到的熵求和。
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            # 計算概率
            prob = len(subDataSet)/float(len(dataSet))
            # 計算信息熵
            newEntropy += prob * calcShannonEnt(subDataSet)
        # gain[信息增益]: 劃分數據集前後的信息變化， 獲取信息熵最大的值
        # 信息增益是熵的減少或者是數據無序度的減少。最後，比較所有特徵中的信息增益，返回最好特徵劃分的索引值。
        infoGain = baseEntropy - newEntropy
        print 'infoGain=', infoGain, 'bestFeature=', i, baseEntropy, newEntropy
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

Q：上面的 newEntropy 爲什麼是根據子集計算的呢？
A ：因爲我們在根據一個特徵計算香農熵的時候，該特徵的分類值是相同，這個特徵這個分類的香農熵爲 0；
這就是爲什麼計算新的香農熵的時候使用的是子集。

（4）訓練算法

構造樹的數據結構

創建樹的函數代碼如下：

def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    # 如果數據集的最後一列的第一個值出現的次數=整個集合的數量，也就說只有一個類別，就只直接返回結果就行
    # 第一個停止條件：所有的類標籤完全相同，則直接返回該類標籤。
    # count() 函數是統計括號中的值在list中出現的次數
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    # 如果數據集只有1列，那麼最初出現label次數最多的一類，作爲結果
    # 第二個停止條件：使用完了所有特徵，仍然不能將數據集劃分成僅包含唯一類別的分組。
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)

    # 選擇最優的列，得到最優列對應的label含義
    bestFeat = chooseBestFeatureToSplit(dataSet)
    # 獲取label的名稱
    bestFeatLabel = labels[bestFeat]
    # 初始化myTree
    myTree = {bestFeatLabel: {}}
    # 注：labels列表是可變對象，在PYTHON函數中作爲參數時傳址引用，能夠被全局修改
    # 所以這行代碼導致函數外的同名變量被刪除了元素，造成例句無法執行，提示'no surfacing' is not in list
    del(labels[bestFeat])
    # 取出最優列，然後它的branch做分類
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        # 求出剩餘的標籤label
        subLabels = labels[:]
        # 遍歷當前選擇特徵包含的所有屬性值，在每個數據集劃分上遞歸調用函數createTree()
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
        # print 'myTree', value, myTree
    return myTree

（5）測試算法

使用決策樹執行分類
代碼如下：

def classify(inputTree, featLabels, testVec):
    """classify(給輸入的節點，進行分類)

    Args:
        inputTree  決策樹模型
        featLabels Feature標籤對應的名稱
        testVec    測試輸入的數據
    Returns:
        classLabel 分類的結果值，需要映射label才能知道名稱
    """
    # 獲取tree的根節點對於的key值
    firstStr = inputTree.keys()[0]
    # 通過key得到根節點對應的value
    secondDict = inputTree[firstStr]
    # 判斷根節點名稱獲取根節點在label中的先後順序，這樣就知道輸入的testVec怎麼開始對照樹來做分類
    featIndex = featLabels.index(firstStr)
    # 測試數據，找到根節點對應的label位置，也就知道從輸入的數據的第幾位來開始分類
    key = testVec[featIndex]
    valueOfFeat = secondDict[key]
    print '+++', firstStr, 'xxx', secondDict, '---', key, '>>>', valueOfFeat
    # 判斷分枝是否結束: 判斷valueOfFeat是否是dict類型
    if isinstance(valueOfFeat, dict):
        classLabel = classify(valueOfFeat, featLabels, testVec)
    else:
        classLabel = valueOfFeat
    return classLabel

（6）使用算法

此步驟可以適用於任何監督學習算法，而使用決策樹可以更好地理解數據的內在含義。

構造決策樹是很耗時的任務，即使很小的數據集也要花費幾秒。如果用創建好的決策樹解決分類問題就可以很快完成。

因此爲了節省計算時間，最好能每次執行分類時調用已經構造好的決策樹，爲了解決這個問題，需要使用Python模塊pickle序列化對象。序列化對象可以在磁盤上保存對象，並在需要的時候讀取出來。任何對象都可以執行序列化，包括字典對象。

下面代碼是使用pickle模塊存儲決策樹：

def storeTree(inputTree, filename):
    impory pickle
    fw = open(filename, 'w')
    pickle.dump(inputTree, fw)
    fw.close()

def grabTree(filename):
    import pickle
    fr = open(filename)
    return pickle.load(fr)

通過上面的代碼我們可以把分類器存儲在硬盤上，而不用每次對數據分類時重新學習一遍，這也是決策樹的優點之一。++K-近鄰算法就無法持久化分類器++。

[1] 決策樹維基百科： https://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91
[2]《機器學習實戰》 -- Peter Harrington
[3]《機器學習》 -- 周志華

[機器學習實戰]決策樹

https://www.cnblogs.com/mantoudev/p/8900126.html

1. 簡介

1.1 決策樹場景

1.2 定義

2. 決策樹原理

2.1 工作原理

2.2 決策樹開發流程

2.3 決策樹算法特點

3. 實戰案例

3.1 項目概述

3.2 開發流程

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

pandas中三大對象

Python鏡像

Excel中3個超級好用的條件求和的函數

Excel讓部分單元格不可選

Python中枚舉取代IF

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結