結合數據挖掘分類談談對信息熵的理解

     信息是個很抽象的概念。人們常常說信息很多,或者信息較少,但卻很難說清楚信息到底有多少。比如一本五十萬字的中文書到底有多少信息量。直到1948年,香農提出了“信息熵”的概念,才解決了對信息的量化度量問題。

   公式爲:H(x)=E[I(xi)]=E[ log(2,1/p(xi)) ]=-∑p(xi)log(2,p(xi)) (i=1,2,..n)該值越大表示信息量越大

   在一個系統中,該系統越混亂,那麼就越難把它搞清楚,需要的信息量就越大,信息熵就越大

   回到數據挖掘中用決策樹進行分類中,在分類的之前,我們需要建立一個決策樹,在建立決策樹的時候屬性的選擇是一個非常關鍵的問題,我們選擇的屬性的標準是讓劃分儘量純(落在給定劃分中的元祖都屬於相同類的越多,那麼就越純),結合上面我們可以推理出如果按照某個屬性劃分後,每個該屬性屬性值所對應的元組越統一(元組所屬的類別越統一),那麼我們這個屬性的選擇就越符合我們的需求。和信息熵結合,就是選擇該屬性之後,所有屬性值對應的分類的信息熵之和越小,那麼我們元組分類所需要的平均信息越少,該屬性就越符合我們的要求

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章