信息熵和信息增益

對決策樹有過初步瞭解的人對決策樹應該有個初步概念，決策樹就是將各種屬性根據在當前條件下，計算出劃分結果最有利的屬性，並將該屬性做爲劃分屬性，以此類推，直到所有的屬性都劃分完畢。其中如何確定該屬性對於劃分結果是最有利？這個需要用到信息熵的概念，即通過計算條件熵H(Y|X)(表示在已知隨機變量X的條件下隨機變量Y的不確定性)，選擇不確定性最低的屬性做爲最優劃分屬性。

信息熵概念

什麼是信息熵?信息熵是用來表示信息量大小的度量，即表示隨機變量不確定性的度量。類似於速度用來表示物體運動快慢的度量。那麼這個信息熵是如何計算的。因爲信息熵是信息量的平均值，我們先來看一下信息量的計算公式：
$I(a_i)=p(a_i)log_2 \frac{1}{p(a_i)}$

其中 $P (a_i)$ 表示 $a_i$ 事件發生的概率
假設一個事件有n種結果，每種結果的概率爲 $P(X = x_i) = p_i, i = 1,2,...,n$
則該隨機變量X的熵定義爲:

$I(a_1,a_2,...,a_n) = \sum ^{n}_{i=1}{I(a_i)} = \sum ^{n}_{i=1}{p(a_i)log_2 \frac{1}{p(a_i)}}$

信息增益

對於熵的概念直觀理解，熵是熱力學裏面的概念，表示運動的不確定性，熵越大，不確定性不大，在這裏，熵同樣表示隨機變量的不確定性。
假設有隨機變量(X,Y)，其聯合概率分佈爲:
$P(X = x_i,Y = y_j) = p_{ij}, i = 1,2,...,n; j=1,2,...,m$
條件熵H(Y|X)：表示在已知隨機變量X的條件下隨機變量Y的不確定性，定義爲X給定條件下Y的條件概率分佈的熵對X的數學期望。
$H(Y|X) = \sum^{n}_{i=1}{p_i}H(Y|X = x_i)$
信息增益:特徵A對訓練數據集D的信息增益，g(D,A),定義爲集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差,即
$g(D,A) = H(D) - H(D|A)$
而在決策樹中我們將信息增益最大的屬性做爲最有屬性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

決策樹介紹(一)信息熵和信息增益

信息熵和信息增益

信息熵概念

信息增益

Linux中main函數參數詳解

Linux開機卡在/dev/sda1：clean，files,blocks解決方案

關於feof機制的詳解

從哥尼斯堡的七橋到網絡爬蟲

正則表達式匹配兩個字符串中間的字符串

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結