決策樹學習記錄

特徵選擇

熵的概念:

熵的作用:

用來描述隨機變量分佈的不確定性。

熵的數學表示:

假設一個樣本空間,其中包含n個獨立的事件,每個事件發生的概率爲p_{i}

當每個事件發生的概率相同,此時樣本空間的不確定性最高(你幾乎無法猜中哪個事件會發生)。

反之,當其中一個事件發生的很大,其餘都很小(如\large p_{1}=0.9,p_{2,3,4..n} = 0.1),此時事件的不確定性就比較低了,你幾乎可以猜中事件1會發生。

那麼熵的數學表達式需要具有上述特徵。

                                                                                   \large H(D)=-\sum_{i=1}^{n}p_{i}logp_{i}

 

慢慢努力吧,會繼續寫的

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章