泛統計理論初探——決策樹

數據挖掘-決策樹

決策樹算法
決策樹是一種較爲常見的算法,該方法在各個社科領域有較爲頻繁的使用。該方法的本質可以理解爲,由多個特質變量的臨界值構建得到的決策樹,該決策樹可以幫助決策者解決一些實際的問題。
在早期的決策樹方法中,是使用熵值對變量的信息複雜度進行衡量並排序,信息量更復雜的變量會進入較前的序列,最終形成一個變量的序列,該序列的順序即代表決策樹的每一層的分類標準。當該序列形成後,即可把訓練集數據代入這個序列,得到每個變量的分界值,然和通過變量的序列和變量的分界值構建出一棵可視化的決策樹。在這個決策樹上,爲了防止決策樹對於訓練集數據的過擬合,還會進行剪枝,得到更爲穩健的決策樹。
在這裏插入圖片描述
根據初步的決策樹方法,很多學者開始對決策樹的算法進行優化。主要有以下三種優化方向。
(1)優化變量的排序方法
之前使用計算熵值的方法,在某種程度上可以通過計算基尼係數來對變量進行排序。衆所周知。熵值是計算變量的信息熵,即對於-p*log§求和。而基尼係數的計算方法是對p(1-p)的求和。這種方法在一般的分類問題中,比信息熵的方法更能衡量最優指標的方法。所以一般在程序自帶的算法包中,會默認使用以基尼係數爲最優指標衡量的方法。
(2)構建決策樹的方法
早期的決策樹使用的是ID3算法,即基於信息增益的構建方法。而在後續的使用中,又有學者提出了C4.5算法,即基於信息增益比的構建方法。該方法相對於ID3算法更爲準確的衡量了信息的重要性,排除了訓練數據的經驗熵對算法本身的影響,也能夠在一定程度上減小了由於訓練數據引起的過擬合問題。
(3)剪枝的方法
剪枝,顧名思義即代表剪去枝條葉子。在決策樹算法中,常常由於訓練數據生成的決策樹會較大、較深。但是由於決策樹較深後,會導致數據的過擬合,即在預測效果中,表現的很差,並且會導致決策樹本身的不穩定,受到異常數據的影響較大。因此在這種情況下,需要對決策樹進行剪枝。一般會將底層的節點進行修剪,因爲底層的節點是信息熵最低的變量,從統計角度來看,即該變量是幾乎不影響最終決策的,或去掉該變量對於決策樹的整體預測能力影響不大,所以可以進行剪除。剪枝的順序一般從下往上進行,而在算法包中,用戶可以指定決策樹的最大深度,進而限制由於訓練數據導致的過擬合,加強決策樹的穩定性和健壯性。
綜上所述,決策樹方法是一種較爲經典並且可視化非常強的算法,該方法易於理解且計算較爲迅速,不佔用很多的計算資源。但是由於決策樹容易受到訓練數據的影響,因此會造成過擬合的問題,所以需要進行剪枝。而在後續的發展中,又加入了許多互相獨立的決策樹,即多棵決策樹組成的隨機森林,該方法的預測能力較強,能夠解決許多預測問題。因此弄清決策樹的原理,對後續隨機森林方法的學習有較好的鋪墊作用。

發佈了29 篇原創文章 · 獲贊 30 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章