國科大UCAS胡包鋼教授《信息論與機器學習》課程第二講：信息論基礎一

來源：專知

信息論中最爲基本的概念就是香農熵（第8頁），由此可以導出信息論中其它各種定義，以至我們常規應用的其它經驗式定義（以後會提到）。學習信息論基礎知識時要避免僅是概念與定義的簡單記憶，要儘量結合個人研究領域中的問題進行思考，並給出個人理解（如第20頁中監督學習中的解釋與思考）。這樣有益於未來更快地發展創新工作。還要明白信息論理論仍在發展中，包括各種熵定義的不斷出現。我們在第28頁中示例了傳統互信息定義在機器學習應用中的問題。可能這類問題在通訊領域的傳統應用中不存在。爲更好理解內容，建議讀者對其中每個例題自行計算一下。你一定會有新的理解。對於有些內容現在無法理解（如第20頁），不要着急。可以隨着以後課程學習後，回頭複習來不斷理解。抱歉該課程未有提供視頻或更多中文解說。基於本課件自學能夠逐步理解也是能力的培養，從事科研工作必須要過這個關。建議有關作業嘗試用筆記錄回答一下，有益於反覆思考。

此課件後面附加一個文件。是英國對口相聲“熱力學第一和第二定律”說明。

讀者可以在蝦米網站聆聽該相聲：

https://www.xiami.com/song/1794511373

作業：

1. 針對香農抓住了通信工程中的本質問題，請總結你從語義表達與計算表達中給出的理解。

2. 結合第28頁中示例，以定理方式證明互信息可能存在的問題。

3. 你認爲怎樣應對互信息中這個問題，並給出具體解決方案。

第19頁: 機器學習中通常會將互信息作爲“相似性”度量，條件熵、散度、交叉熵作爲“誤差或損失”指標來應用。統稱它們爲指標或準則是可以包容散度這樣非度量類別。但是要理解這些信息指標是關於兩個隨機變量之間獨立性的測量（第22頁）。本質上不是相似性或損失的測量。

第20頁: 這頁內容對於理解信息論指標在監督學習中的內涵十分重要。其中T是目標類標變量，Y是預測類標變量。舉例一下，T中100個樣本，有50個蘋果，有50個鴨梨爲標籤。因此H(T)是固定的。而分類學習中，我們可能預測爲30個蘋果，70個鴨梨。思考問題中，所謂“不正確（incorrect）”是由於應用了H(Y)爲目標基點（Baseline），該基點猶如移動目標。從理論上講，移動目標或固定目標對優化問題解應是一致的。從實際優化搜索而言，移動目標更易引起搜索中的震盪現象。因此認爲是“不正確”。我們對互信息在在監督學習中的語義內涵給出了不同解釋樣例。在實際應用中，這種解釋性特別重要，要兼有語義與計算層面的解釋理解。比如思考問題中提到了聚類問題，這些指標的物理意義與選擇方面解釋是值得思考的問題。要理解機器學習中首要問題“學習目標選擇”值得更多重視。對理論上等價的指標，選擇某個的原因是什麼呢？對各種學習目標我們有必要開展“系統化設計方法”研究（2001年我們在《自動化學報》關於模糊系統綜述文章中對“系統化設計方法”給予了討論）。

當信息論指標得到更多應用時，我們需要準確理解。比如許多分類學習方法中將交叉熵以誤差或損失方式來說明。但是，此圖及第19頁計算公式告訴我們交叉熵H(T;Y)最小值應是H(T)且應大於“零”值。因爲H(T)=0意味全部樣本爲一類。交叉熵大於“零”的性質說明與誤差概念顯然不同。我個人理解交叉熵可以有“零”值解是借用了交叉熵計算公式，且該公式應該稱爲邏輯損失（Logistic Loss）而非交叉熵。常規術語應用中要理解這之間的差異。

第23-28頁: 二進制信道是通訊中最爲基本的結構。在監督學習中這猶如對應了二值分類器。其中“擦除”功能（第24頁）將增加一維輸出，對應二值分類器就是增加了一個拒識（或未知）類別輸出。第26頁中的GBC結構可以描述其它結構。從機器學習角度講，GBC可以稱爲帶拒識類別二值分類器。通訊理論中通常應用“條件概率分佈”描述二進制信道，這裏我們應用“聯合概率分佈”來描述，不僅可以導出“條件概率分佈”，而且可以對應二值分類器中的混淆矩陣。

附課件：