數學之美(系列七) 之 信息論在信息處理中的應用

數學之美 系列七 -- 信息論在信息處理中的應用

<script language=javascript> uT("time114822338683782989"); </script>


我們已經介紹了信息熵,它是信息論的基礎,我們這次談談信息論在自然語言處理中的應用。

先看看信息熵和語言模型的關係。我們在系列一中談到語言模型時,沒有講如何定量地衡量一個語言模型的好壞,當然,讀者會很自然地想到,既然語言模型能減少語音識別和機器翻譯的錯誤,那麼就拿一個語音識別系統或者機器翻譯軟件來試試,好的語言模型必然導致錯誤率較低。這種想法是對的,而且今天的語音識別和機器翻譯也是這麼做的。但這種測試方法對於研發語言模型的人來講,既不直接、又不方便,而且很難從錯誤率反過來定量度量語言模型。事實上,在賈里尼克(Fred Jelinek)的人研究語言模型時,世界上既沒有像樣的語音識別系統,更沒有機器翻譯。我們知道,語言模型是爲了用上下文預測當前的文字,模型越好,預測得越準,那麼當前文字的不確定性就越小。

信息熵正是對不確定性的衡量,因此信息熵可以直接用於衡量統計語言模型的好壞。賈里尼克從信息熵出發,定義了一個稱爲語言模型複雜度(Perplexity)的概念,直接衡量語言模型的好壞。一個模型的複雜度越小,模型越好。李開復博士在介紹他發明的 Sphinx 語音識別系統時談到,如果不用任何語言模型(即零元語言模型)時,複雜度爲997,也就是說句子中每個位置有 997 個可能的單詞可以填入。如果(二元)語言模型只考慮前後詞的搭配不考慮搭配的概率時,複雜度爲 60。雖然它比不用語言模型好很多,但是和考慮了搭配概率的二元語言模型相比要差很多,因爲後者的複雜度只有 20。

信息論中僅次於熵的另外兩個重要的概念是“互信息”(Mutual Information) 和“相對熵”(Kullback-Leibler Divergence)。

“互信息”是信息熵的引申概念,它是對兩個隨機事件相關性的度量。比如說今天隨機事件北京下雨和隨機變量空氣溼度的相關性就很大,但是和姚明所在的休斯敦火箭隊是否能贏公牛隊幾乎無關。互信息就是用來量化度量這種相關性的。在自然語言處理中,經常要度量一些語言現象的相關性。比如在機器翻譯中,最難的問題是詞義的二義性(歧義性)問題。比如 Bush 一詞可以是美國總統的名字,也可以是灌木叢。(有一個笑話,美國上屆總統候選人凱里 Kerry 的名字被一些機器翻譯系統翻譯成了"愛爾蘭的小母牛",Kerry 在英語中另外一個意思。)那麼如何正確地翻譯這個詞呢?人們很容易想到要用語法、要分析語句等等。其實,至今爲止,沒有一種語法能很好解決這個問題,真正實用的方法是使用互信息。具體的解決辦法大致如下:首先從大量文本中找出和總統布什一起出現的互信息最大的一些詞,比如總統、美國、國會、華盛頓等等,當然,再用同樣的方法找出和灌木叢一起出現的互信息最大的詞,比如土壤、植物、野生等等。有了這兩組詞,在翻譯 Bush 時,看看上下文中哪類相關的詞多就可以了。這種方法最初是由吉爾(Gale),丘奇(Church)和雅讓斯基(Yarowsky)提出的。

當時雅讓斯基在賓西法尼亞大學是自然語言處理大師馬庫斯 (Mitch Marcus) 教授的博士生,他很多時間泡在貝爾實驗室丘奇等人的研究室裏。也許是急於畢業,他在吉爾等人的幫助下想出了一個最快也是最好地解決翻譯中的二義性,就是上述的方法,這個看上去簡單的方法效果好得讓同行們大吃一驚。雅讓斯基因而只花了三年就從馬庫斯那裏拿到了博士,而他的師兄弟們平均要花六年時間。

信息論中另外一個重要的概念是“相對熵”,在有些文獻中它被稱爲成“交叉熵”。在英語中是 Kullback-Leibler Divergence,是以它的兩個提出者庫爾貝克和萊伯勒的名字命名的。相對熵用來衡量兩個正函數是否相似,對於兩個完全相同的函數,它們的相對熵等於零。在自然語言處理中可以用相對熵來衡量兩個常用詞(在語法上和語義上)是否同義,或者兩篇文章的內容是否相近等等。利用相對熵,我們可以到處信息檢索中最重要的一個概念:詞頻率-逆向文檔頻率(TF/IDF)。我們下回會介紹如何根據相關性對搜索出的網頁進行排序,就要用的餐TF/IDF 的概念。另外,在新聞的分類中也要用到相對熵和 TF/IDF。

對信息論有興趣又有一定數學基礎的讀者,可以閱讀斯坦福大學托馬斯.科弗 (Thomas Cover) 教授的專著 "信息論基礎"(Elements of Information Theory):
http://www.amazon.com/gp/product/0471062596/ref=nosim/103-7880775-7782209?n=283155
http://www.cnforyou.com/query/bookdetail1.asp?viBookCode=17909
科弗教授是當今最權威的信息論專家。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章