機器學習筆記(三)--決策樹

學習機器學習算法之決策樹,這個大俠的文章寫得不錯:http://www.cnblogs.com/yonghao/p/5061873.html

總結一下:

1.對於信息熵的理解:

選假設有一個離散型隨機變量X有4中可能的結果:A-1/2,B-1/4,C-1/8,D-1/8,後面的是每種結果的發生概率。那麼如果順序的去猜測X,就會有以下事件可能發生:問到A,命中A,用一次,問A->B,命中B,用兩次,問A->B->C,命中C,用三次,問A->B->C,不命中C但是只剩下D自然就會命中D,用三次,所以平均次數=1/2×1+1/4×2+1/8×3+1/8×3=1/2×log2(2)+1/4*log2(4)+1/8*log2(8)+1/8*log2(8)=1.75bit。說明用計算機對X的取值編碼的平均長度爲1.75個bit(這裏引用知乎回答,可以比較形象體會一下信息的量化)。在獲得隨機變量後會得到信息,那麼定義這信息增益量爲:log(pi^-1),即對應概率的倒數的對數。總的來說,信息熵是用來刻畫數據集合複雜度的統計量,信息熵越大越複雜越沒有達到分類的目的,數據集就越不純。注意在公式中的對數的底數取值可以有不同,一般取2單位是bit,也有取e的單位信息單位奈特nat,只要>1就可以。

 

2.交叉熵:

描述兩個數據集合相似程度的度量方法。用交叉熵代替成本函數,通過量化正確結果集與預測結果集的相似程度及交叉熵,就可以快速下降。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章