熵條件熵信息增益

在信息論和條件概率中，熵是表示隨機變量不確定性的度量，設X是一個取有限個值的離散隨機變量，其概率分佈爲

P(X=xi)=pi ,i=1,2,....,n

則隨機變量X的熵定義爲

H(X) = -累加 pi log pi

熵越大，隨機變量的不確定性就越大，從定義可驗證

0<=H(p)<=logn

當隨機變量只取兩個值，例如1，0時，即X的分佈爲

P(X=1)=p P(X=0)=1-p 0<=p<=1

熵爲

H(p)=-p log2 P - (1-p)log2(1-p)

當p=0或p=1時 H(p)=0，隨機完全沒有不確定性。當p=0.5時H(p)=1，熵取值最大，隨機變量不確定性。當p=0.5時，H(p)=1,熵取值最大，隨機變量不確定性最大。

設有隨機變量（x，y），其聯合概率分佈爲

P(X=xi,Y=yi)=pij ,i=1,2,...,n;j=1,2,...,m

條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性。隨機變量X給定的條件下隨機變量Y的條件熵H(X|Y)，定義爲X給定條件下Y的條件概率分佈的熵對X的數學期望

H(Y|X)=累加 pi H(Y|X=xi)

這裏，pi=P(X=xi),i=1,2,...,n

當熵和條件熵中的概率由數據估計（特別是極大似然估計）得到時，所對應的熵和條件熵分別稱爲經驗熵和經驗條件熵。此時，如果有0概率，令0log0=0

信息增益

信息增益表示得知特徵X的信息而使得類Y的信息的不確定性減少的程度。

特徵A對訓練數據集D的信息增益g(D,A)，定義爲集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差，即

g(D,A)=H(D)-H(D|A)

一般地，熵H(Y)與條件熵H(Y|X)之差稱爲互信息，決策樹學習中的信息增益等價於訓練數據集中類與特徵的互信息。

決策樹學習應用信息增益準則選擇特徵。給定訓練數據集D和特徵A，經驗熵H(D)表示對數據集D進行分類的不確定性。而經驗條件熵H(D)表示在特徵A給定的條件下對數據集D進行分類的不確定性，那麼他們的差，即信息增益，就表示由於特徵A而使得對數據集D進行分類的不確定性減少的程度。顯然，對於數據集D而言，信息增益依賴於特徵，不同的特徵往往具有不同的信息增益，信息增益大的特徵具有更強的分類能力。

根據信息增益準則的特徵選擇方法是：對訓練數據集（或子集）D，計算其每個特徵的信息增益，並比較它們的大小，選擇信息增益最大的特徵。

總結：信息增益爲數據集D的經驗熵H(D) 與特徵A對數據集D的經驗熵H(D|A) 之差

熵條件熵信息增益

統計學習方法的步驟

Bandit 冷啓動算法

熵條件熵信息增益

算法

交叉驗證

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

熵 條件熵 信息增益

熵條件熵信息增益