周志華 《機器學習》之 第四章(決策樹)概念總結

看完周老師的決策樹章節,首先從內容安排上採用了循序漸進的方式引入介紹決策樹這種分類算法。書中從基本流程、劃分選擇、剪枝處理、連續與缺失值、多變量決策樹五個方面進行詳細介紹。看完之後我們如何理解決策樹呢?
1、決策樹的概念:首先我們可以明確決策樹同其他機器學習算法一樣,是一種解決分類問題的算法。從名字上我們可以看出決策樹是一顆樹的存儲結構,圖顯示的話,這個算法應該就是一顆數。在機器學習中,一顆決策樹包含一個根結點、若干個內部結點和若干個葉結點;根結點和內部結點都對應於一個屬性測試,葉結點則對應於決策結果;每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中;根結點包含樣本全集。從根結點到每個葉結點的路徑對應了一個判定測試序列;因此,可以想象一次次劃分之後由根延伸出了許多分支,形象的說就是一棵樹。
從決策樹的概念中可以分析出,如何在每個內部結點處,屬性測試中如何選擇最優劃分屬性成爲了構建決策樹的關鍵。
2、劃分選擇書中介紹三種方法,分別是信息增益、增益率、基尼指數 提到基本概念如下:
信息熵:是度量樣本集合純度最常用的一種指標。信息熵的值越小,則樣本集合的純度就越高。
信息增益:信息增益我們可以理解爲在劃分樣本集前後引起的信息熵的差異,一般而言,信息增益越大,則意味着使用的劃分屬性對樣本集進行劃分獲得的“純度提升”越大。
增益率:http://blog.csdn.net/athenaer/article/details/8425479
基尼指數:
3、剪枝處理主要講述預剪枝和後剪枝
剪枝處理是決策樹學習算法對付“過擬合”的主要手段。在決策樹學習中,爲了儘可能正確分類訓練樣本,結點劃分過程將不斷重複,有時會造成決策樹分支過多,這時就可能因訓練樣本學得“太好”了,以致於把訓練集自身的一些特點當做所有數據都具有的一般性質而導致過擬合。因此,可以通過主動去掉一些分支來降低過擬合的風險。
預剪枝:
後剪枝:
注:預剪枝基於“貪心”本質禁止這些分支展開,給預剪枝決策樹帶來了欠擬合的風險;後剪枝決策樹的欠擬合風險很小,泛化性能往往優於預剪枝決策樹。但後剪枝過程是在生產完全決策樹之後進行的,並且要自底向上的對樹中的所有非葉結點進行逐一考察,因此其訓練時間開銷比未剪枝決策樹和預剪枝決策樹都要大很多。
4、連續與缺失值 本小結主要是對數據連續時以及缺失數據時的情況下如何處理構建決策樹
連續屬性離散化技術
遇到不完整樣本,即樣本的某些屬性值缺失。引入

p
表示無缺失值樣本所佔比例。
5、多變量決策樹

課後習題
http://blog.csdn.net/wzmsltw/article/details/51059394

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章