國科大UCAS胡包鋼教授《信息論與機器學習》課程第二講:信息論基礎一


來源:專知

信息論中最爲基本的概念就是香農熵(第8頁),由此可以導出信息論中其它各種定義,以至我們常規應用的其它經驗式定義(以後會提到)。學習信息論基礎知識時要避免僅是概念與定義的簡單記憶,要儘量結合個人研究領域中的問題進行思考,並給出個人理解(如第20頁中監督學習中的解釋與思考)。這樣有益於未來更快地發展創新工作。還要明白信息論理論仍在發展中,包括各種熵定義的不斷出現。我們在第28頁中示例了傳統互信息定義在機器學習應用中的問題。可能這類問題在通訊領域的傳統應用中不存在。爲更好理解內容,建議讀者對其中每個例題自行計算一下。你一定會有新的理解。對於有些內容現在無法理解(如第20頁),不要着急。可以隨着以後課程學習後,回頭複習來不斷理解。抱歉該課程未有提供視頻或更多中文解說。基於本課件自學能夠逐步理解也是能力的培養,從事科研工作必須要過這個關。建議有關作業嘗試用筆記錄回答一下,有益於反覆思考。

此課件後面附加一個文件。是英國對口相聲“熱力學第一和第二定律”說明。

讀者可以在蝦米網站聆聽該相聲:

https://www.xiami.com/song/1794511373

作業:

1. 針對香農抓住了通信工程中的本質問題,請總結你從語義表達與計算表達中給出的理解。

2. 結合第28頁中示例,以定理方式證明互信息可能存在的問題。

3. 你認爲怎樣應對互信息中這個問題,並給出具體解決方案。

第19頁: 機器學習中通常會將互信息作爲“相似性”度量,條件熵、散度、交叉熵作爲“誤差或損失”指標來應用。統稱它們爲指標或準則是可以包容散度這樣非度量類別。 但是要理解這些信息指標是關於兩個隨機變量之間獨立性的測量(第22頁)。本質上不是相似性或損失的測量。

第20頁: 這頁內容對於理解信息論指標在監督學習中的內涵十分重要。其中T是目標類標變量,Y是預測類標變量。舉例一下,T中100個樣本,有50個蘋果,有50個鴨梨爲標籤。因此H(T)是固定的。而分類學習中,我們可能預測爲30個蘋果,70個鴨梨。思考問題中,所謂“不正確(incorrect)”是由於應用了H(Y)爲目標基點(Baseline),該基點猶如移動目標。從理論上講,移動目標或固定目標對優化問題解應是一致的。從實際優化搜索而言,移動目標更易引起搜索中的震盪現象。因此認爲是“不正確”。我們對互信息在在監督學習中的語義內涵給出了不同解釋樣例。在實際應用中,這種解釋性特別重要,要兼有語義與計算層面的解釋理解。比如思考問題中提到了聚類問題,這些指標的物理意義與選擇方面解釋是值得思考的問題。要理解機器學習中首要問題“學習目標選擇”值得更多重視。對理論上等價的指標,選擇某個的原因是什麼呢?對各種學習目標我們有必要開展“系統化設計方法”研究(2001年我們在《自動化學報》關於模糊系統綜述文章中對“系統化設計方法”給予了討論)。

當信息論指標得到更多應用時,我們需要準確理解。比如許多分類學習方法中將交叉熵以誤差或損失方式來說明。但是,此圖及第19頁計算公式告訴我們交叉熵H(T;Y)最小值應是H(T)且應大於“零”值。因爲H(T)=0意味全部樣本爲一類。交叉熵大於“零”的性質說明與誤差概念顯然不同。我個人理解交叉熵可以有“零”值解是借用了交叉熵計算公式,且該公式應該稱爲邏輯損失(Logistic Loss)而非交叉熵。常規術語應用中要理解這之間的差異。

第23-28頁: 二進制信道是通訊中最爲基本的結構。在監督學習中這猶如對應了二值分類器。其中“擦除”功能(第24頁)將增加一維輸出,對應二值分類器就是增加了一個拒識(或未知)類別輸出。第26頁中的GBC結構可以描述其它結構。從機器學習角度講,GBC可以稱爲帶拒識類別二值分類器。通訊理論中通常應用“條件概率分佈”描述二進制信道,這裏我們應用“聯合概率分佈”來描述,不僅可以導出“條件概率分佈”,而且可以對應二值分類器中的混淆矩陣。

附課件:

英國對口相聲“熱力學第一和第二定律”說明

未來智能實驗室是人工智能學家與科學院相關機構聯合成立的人工智能,互聯網和腦科學交叉研究機構。

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章