數學之美 系列十五 繁與簡 自然語言處理的幾位精英



我在數學之美系列中一直強調的一個好方法就是簡單。但是,事實上,自然語言處理中也有一些特例,比如有些學者將一個問題研究到極致,執著追求完善甚至可以說完美的程度。他們的工作對同行有很大的參考價值,因此我們在科研中很需要這樣的學者。在自然語言處理方面新一代的頂級人物麥克爾 · 柯林斯 (Michael Collins) 就是這樣的人。


柯林斯:追求完美 


柯林斯從師於自然語言處理大師馬庫斯 (Mitch Marcus)(我們以後還會多次提到馬庫斯),從賓夕法利亞大學獲得博士學位,現任麻省理工學院 (MIT) 副教授(別看他是副教授,他的水平在當今自然語言處理領域是數一數二的),在作博士期間,柯林斯寫了一個後來以他名字命名的自然語言文法分析器 (sentence parser),可以將書面語的每一句話準確地進行文法分析。文法分析是很多自然語言應用的基礎。雖然柯林斯的師兄布萊爾 (Eric Brill) 和 Ratnaparkhi 以及師弟 Eisnar 都完成了相當不錯的語言文法分析器,但是柯林斯卻將它做到了極致,使它在相當長一段時間內成爲世界上最好的文法分析器。柯林斯成功的關鍵在於將文法分析的每一個細節都研究得很仔細。柯林斯用的數學模型也很漂亮,整個工作可以用完美來形容。我曾因爲研究的需要,找柯林斯要過他文法分析器的源程序,他很爽快地給了我。我試圖將他的程序修改一下來滿足我特定應用的要求,但後來發現,他的程序細節太多以至於很難進一步優化。柯林斯的博士論文堪稱是自然語言處理領域的範文。它像一本優秀的小說,把所有事情的來龍去脈介紹的清清楚楚,對於任何有一點計算機和自然語言處理知識的人,都可以輕而易舉地讀懂他複雜的方法。

柯林斯畢業後,在 AT&T 實驗室度過了三年快樂的時光。在那裏柯林斯完成了許多世界一流的研究工作諸如隱含馬爾科夫模型的區別性訓練方法,卷積核在自然語言處理中的應用等等。三年後,AT&T 停止了自然語言處理方面的研究,柯林斯幸運地在 MIT 找到了教職。在 MIT 的短短几年間,柯林斯多次在國際會議上獲得最佳論文獎。相比其他同行,這種成就是獨一無二的。柯林斯的特點就是把事情做到極致。如果說有人喜歡“繁瑣哲學”,柯林斯就是一個。


布萊爾:簡單才美 


在研究方法上,站在柯林斯對立面的典型是他的師兄艾裏克 · 布萊爾 (Eric Brill) 和雅讓斯基,後者我們已經介紹過了,這裏就不再重複。與柯林斯從工業界到學術界相反,布萊爾職業路徑是從學術界走到工業界。與柯里斯的研究方法相反,布萊爾總是試圖尋找簡單得不能再簡單的方法。布萊爾的成名作是基於變換規則的機器學習方法 (transformation rule based machine learning)。這個方法名稱雖然很複雜,其實非常簡單。我們以拼音轉換字爲例來說明它:

第一步,我們把每個拼音對應的漢字中最常見的找出來作爲第一遍變換的結果,當然結果有不少錯誤。比如,“常識”可能被轉換成“長識”;

第二步,可以說是“去僞存真”,我們用計算機根據上下文,列舉所有的同音字替換的規則,比如,如果 chang 被標識成“長”,但是後面的漢字是“識”,則將“長”改成“常”;

第三步,應該就是“去粗取精”,將所有的規則用到事先標識好的語料中,挑出有用的,刪掉無用的。然後重複二三步,直到找不到有用的爲止。

布萊爾就靠這麼簡單的方法,在很多自然語言研究領域,得到了幾乎最好的結果。由於他的方法再簡單不過了,許許多多的人都跟着學。布萊爾可以算是我在美國的第一個業師,我們倆就用這麼簡單的方法作詞性標註 (part of speech tagging),也就是把句子中的詞標成名詞動詞,很多年內無人能超越。(最後超越我們的是後來加入 Google 的一名荷蘭工程師,用的是同樣的方法,但是做得細緻很多)布萊爾離開學術界後去了微軟研究院。在那裏的第一年,他一人一年完成的工作比組裏其他所有人許多年做的工作的總和還多。後來,布萊爾又加入了一個新的組,依然是高產科學家。據說,他的工作真正被微軟重視要感謝 Google,因爲有了 Google,微軟纔對他從人力物力上給於了巨大的支持,使得布萊爾成爲微軟搜索研究的領軍人物之一。在研究方面,布萊爾有時不一定能馬上找到應該怎麼做,但是能馬上否定掉一種不可能的方案。這和他追求簡單的研究方法有關,他能在短時間內大致摸清每種方法的好壞。

由於布萊爾總是找簡單有效的方法,而又從不隱瞞自己的方法,所以他總是很容易被包括作者我自己在內的很多人趕上和超過。好在布萊爾很喜歡別人追趕他,因爲,當人們在一個研究方向超過他時,他已經調轉船頭駛向它方了。一次,艾裏克對我說,有一件事我永遠追不上他,那就是他比我先有了第二個孩子 :)

在接下來了系列裏,我們還會介紹一個繁與簡結合的例子。

from:http://www.google.com.hk/ggblog/googlechinablog/2006/08/blog-post_6232.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章