1. 隨機變量X的信息熵的上界
參考:關於信息熵最大值的討論。
2. 決策樹中的信息增益特徵選擇法能否運用到其他模型?
個人感覺不可以,因爲決策樹中分類是基於if-then集合規則或條件概率的,不同模型的分類評價方法可能不一樣。例如,利用信息增益篩選出來的特徵對感知機不一定適用,也即if-then規則和決策超平面不一定相容。
3. CART樹剪枝
5.29 式如何解釋?不考慮正則項的話,以 t 爲單結點的樹的損失函數總是大於以 t 爲根節點的子樹 Tt 的損失函數?因爲決策樹總是向着過擬合的方向生長?
實際上這個g(t)表示剪枝的閾值,即對於某一結點a,當總體損失函數中的參數alpha = g(t)時,剪和不剪總體損失函數是一樣的(這可以在書中(5.27)和(5.28)聯立得到)。