(3)機器學習實戰筆記:決策樹

Chapter3
11.26
決策樹
 
主要優勢:數據形式非常容易理解
 
可以使用不熟悉的數據集合,並從中提取出一系列規劃
給出的結果往往可以匹敵在當前領域具有幾十年工作經驗的人類專家
 
優點:計算複雜度不高,輸出結果容易理解,對中間值的缺失不敏感,可以處理不相關特徵數據
缺點:可能會出現過度匹配的問題
適用數據類型:數值型和標稱型
 
需要考慮決定的第一個問題:當前數據集上那個特徵在劃分數據分類時候起決定性作用,從而可以劃分出最好的結果
必須評估每個特徵
 
完成測試以後,原始數據集就被劃分爲幾個數據子集,會分佈在第一個決策點所有分支上。如果某個分支下的數據屬於同一類型,則已經正確劃分數據集無需對數據進一步進行分割;如果數據子集內的數據不是同一個類型,就需要重複劃分數據集的過程。
劃分數據子集的算法和劃分原始數據集的方法不相同 直到所有具有相同類型的數據均在一個數據子集內
 
創建分支僞代碼
createBranch()
檢測數據集中每個子項是否屬於同一個分類:
if so:return 類標籤
else:
尋找劃分數據集的最好特徵
劃分數據集
創建分支結點
for 每個劃分的子集
調用函數createBranch 並增加返回結果到分支節點當中
return 分支節點
 
 
決策樹一般流程:
收集數據:可以使用任何的方法
準備數據,樹構造算法只適用於標稱型數據,因此數據值型數據必須離散化
分析數據:構造完樹,應該檢查圖形是否符合預期
訓練算法:構造樹的數據結構
測試算法:用經驗樹計算錯誤率
適用:可以適用於任何監督學習的算法,使用決策樹可以更好的理解內在含義
 
 
3.1.1 信息增益
劃分數據集的大原則:將無序的數據變得更加有順序
組織雜亂無章數據的方法:使用信息論度量信息,在劃分數據之前或者之後使用信息論量化度量信息的內容。
 
信息增益:劃分數據之前之後信息發生的變化
通過計算每個特徵值劃分數據集獲得的信息增益,獲得信息增益最高的特徵就是最好的選擇!
information gain:信息增益
entropy:熵
熵越高,則混合的數據也越多,我們可以在數據集中添加更多的分類,觀察熵是如何變化
3.1.2劃分數據集
 
度量劃分數據集的信息熵,以便判斷當前是否正確地劃分了數據集
對每個特徵劃分數據集結果計算一次信息熵,然後判斷按照哪個特徵劃分數據集是最好的劃分方式。
 
過度匹配:匹配選項太多了,需要裁減決策樹,去掉一些不必要的葉子結點。
 
總結:
決策樹分類器,像有終止塊的流程圖,終止塊表示分類結果
before處理數據集,需要先測量集合中數據不一致性:熵,通過熵來尋找最優方案劃分數據集
直到所有數據集轉化爲決策樹
*可能會產生過多的數據集劃分,從而產生過度匹配疏忽聚集的問題,通過裁決決策樹合併相鄰的無法產生大量信息的葉結點消除過度匹配問題。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章