泛統計理論初探——決策樹

數據挖掘-決策樹

決策樹算法
決策樹是一種較爲常見的算法，該方法在各個社科領域有較爲頻繁的使用。該方法的本質可以理解爲，由多個特質變量的臨界值構建得到的決策樹，該決策樹可以幫助決策者解決一些實際的問題。
在早期的決策樹方法中，是使用熵值對變量的信息複雜度進行衡量並排序，信息量更復雜的變量會進入較前的序列，最終形成一個變量的序列，該序列的順序即代表決策樹的每一層的分類標準。當該序列形成後，即可把訓練集數據代入這個序列，得到每個變量的分界值，然和通過變量的序列和變量的分界值構建出一棵可視化的決策樹。在這個決策樹上，爲了防止決策樹對於訓練集數據的過擬合，還會進行剪枝，得到更爲穩健的決策樹。

根據初步的決策樹方法，很多學者開始對決策樹的算法進行優化。主要有以下三種優化方向。
（1）優化變量的排序方法
之前使用計算熵值的方法，在某種程度上可以通過計算基尼係數來對變量進行排序。衆所周知。熵值是計算變量的信息熵，即對於-p*log§求和。而基尼係數的計算方法是對p(1-p)的求和。這種方法在一般的分類問題中，比信息熵的方法更能衡量最優指標的方法。所以一般在程序自帶的算法包中，會默認使用以基尼係數爲最優指標衡量的方法。
（2）構建決策樹的方法
早期的決策樹使用的是ID3算法，即基於信息增益的構建方法。而在後續的使用中，又有學者提出了C4.5算法，即基於信息增益比的構建方法。該方法相對於ID3算法更爲準確的衡量了信息的重要性，排除了訓練數據的經驗熵對算法本身的影響，也能夠在一定程度上減小了由於訓練數據引起的過擬合問題。
（3）剪枝的方法
剪枝，顧名思義即代表剪去枝條葉子。在決策樹算法中，常常由於訓練數據生成的決策樹會較大、較深。但是由於決策樹較深後，會導致數據的過擬合，即在預測效果中，表現的很差，並且會導致決策樹本身的不穩定，受到異常數據的影響較大。因此在這種情況下，需要對決策樹進行剪枝。一般會將底層的節點進行修剪，因爲底層的節點是信息熵最低的變量，從統計角度來看，即該變量是幾乎不影響最終決策的，或去掉該變量對於決策樹的整體預測能力影響不大，所以可以進行剪除。剪枝的順序一般從下往上進行，而在算法包中，用戶可以指定決策樹的最大深度，進而限制由於訓練數據導致的過擬合，加強決策樹的穩定性和健壯性。
綜上所述，決策樹方法是一種較爲經典並且可視化非常強的算法，該方法易於理解且計算較爲迅速，不佔用很多的計算資源。但是由於決策樹容易受到訓練數據的影響，因此會造成過擬合的問題，所以需要進行剪枝。而在後續的發展中，又加入了許多互相獨立的決策樹，即多棵決策樹組成的隨機森林，該方法的預測能力較強，能夠解決許多預測問題。因此弄清決策樹的原理，對後續隨機森林方法的學習有較好的鋪墊作用。