俞士汶教授談中文語言處理


1、與英語等歐洲語言相比,中文在信息化處理上有很多不同的障礙,如:輸入、分詞等。請簡要介紹一下中文語言處理的研究領域和存在的挑戰?

中文信息處理應該大致劃分爲漢字信息處理和漢語信息處理兩個顯然不同的但相互又有聯繫的層次。在文字信息處理的層次上,由於漢字是大字符集,與英語等歐洲語言採用的幾十個字母相比,發展進程中確實遭遇過很多不同的障礙,不過現在大體上已經克服了,漢字信息處理技術已經實用化、產品化。在語言信息處理的層次上,特別是到了內容處理或語義理解的階段,人類語言共性的影響遠遠超出了它們各自的特性。以詞語切分(segmentation,即問題中的“分詞”)而言,並不能說它是漢語的特別任務,其他語言(包括英語)也有相似的課題。

有實踐經驗的人又普遍感到(書面)漢語信息處理確實存在一些特別的困難。原因主要在於書面漢語的以下兩個重要特點:(1)不同的語言單位(以漢字表示的語素、詞、短語、句子乃至更大的單位)之間界限不清晰;(2)中文的語言要素,特別是詞,在運用時缺乏指示其功能或語義的形態變化。

認識到漢語信息處理的困難,漢語信息處理髮展的方向也就明確了。既要吸收國際上其他語言的先進理論、技術和經驗,也要充分重視漢語的特點。研究領域要做的工作很多,最具基礎性的工作應該是建設服務於漢語信息處理的知識庫。


2、作爲中文語言處理的獨特內容,中文分詞在國內外研究和應用領域都有什麼最新進展?

書面漢語的詞語切分是漢語信息處理的第一道關口,姑且不論它是不是獨特內容。或許有的理論或系統聲稱沒有“分詞”這個步驟,但從語句中辨識出可以作爲操作單位的或語言知識庫之登錄項(entry)的語言單位(不妨以“詞”命名),總是無可迴避的。

完全正確的切分取決於對文本理解的深度或者說需要足夠的語境信息,“白天鵝在湖裏游泳”即是一例。目前自然語言理解技術未能取得突破,也不能期求詞語切分百分之百地正確。不同的應用對切分的精度有不同的要求,不同的軟件有不同的適用範圍。

作爲漢語詞語切分研究領域的最近進展,有幾件事值得一談。一是清華大學孫茂松教授主持制訂的大型分詞詞表(可能尚未出版);二是中科院計算所劉羣博士等人將自主開發的切分軟件放在網上,可以自由下載;三是中國教育部語言文字應用研究所開發的平衡語料庫和北大計算語言學研究所開發的《人民日報》基本加工語料庫,規模都有數千萬字。另外,臺灣中研院黃居仁教授加工了有11億字的Chinese Gigaword Corpus,不過它是全自動進行的,而北大與語用所的加工結果都經過了人工校對。

樣本語料庫的意義不可低估。劉羣博士的軟件就是以半年《人民日報》基本加工語料庫作爲其統計算法的訓練語料而開發出來的。北大計算語言所放在網上的1個月的《人民日報》基本加工語料庫,下載人次已超過9400。俞士汶等人制訂的語料庫加工規範(2001年版和2003版)分別發表在《中文信息學報》(2003年第5,6期)和新加坡《漢語語言和計算學報》(2003年第2期)上,影響甚廣。

技術的普及和基礎資源的整備或許孕育了理論和技術的創新

3、中文分詞技術當前面臨的主要挑戰是什麼?互聯網的發展和計算能力的提升對其發展有何幫助?

與理論探討、算法設計、演示系統開發不同,互聯網搜索引擎技術要求詞語切分技術具有實戰能力。在互聯網上應用時,歧義切分(交叉歧義和組合歧義)的消解技術仍會碰到解決不了的難題。現在最棘手的可能是“新詞”問題。“新詞”可定義爲詞典或訓練語料中沒有的詞。新詞種類很多,人名、地名、機構名、商品名等實體名稱必然不斷有新的出現,簡稱或縮略語也是,比這些更難對付的是新出現的普通詞語。“新詞”識別和歧義切分消解有時也會糾結在一起。

從互聯網很容易獲取大量語料,可以用於訓練或測試,這比從前方便多了。計算能力和網絡技術的發展對漢語詞語切分軟件的開發和性能的提升肯定有幫助,譬如使用並行計算和分佈式處理可以提高處理速度,促進切分軟件實用化。不過,漢語詞語切分的難題基本上屬於自然語言表述的信息內容理解的層次,可能需要突破現有的計算機體系、期待人類認知過程的揭祕和新型智能信息系統的出現,機器求解纔有可能達到與人類智能相媲美的程度。


4、如何判斷不同中文分詞系統的優劣?

無疑,正確率是最重要的指標。不過,很難以單一指標(如:正確率)評判漢語詞語切分軟件的優劣,在互聯網上應用,速度也是一個重要的指標。適應不同的應用,需要量體裁衣,功能、性能指標不同的軟件也自有各自適用的範圍。


5、請介紹一下中文語言處理的國際性研究組織?SIGHAN中文分詞競賽是怎麼回事?

爲了嚴謹起見,我強調這裏介紹的應該說是中國大陸以外的情況。

較早成立的有美國的“中文計算機協會”,至今已組織了20多次東方語言信息處理國際會議。第20次於2003年在我國東北大學召開。臺灣於1998年成立計算語言學學會(Rocling),每年舉行一次年會;並出版《中文計算語言學期刊》。新加坡於1991年成立“中文與東方語言信息處理學會”,現在一年出版4期《漢語語言與計算學報》(俞士汶是該雜誌的聯合主編)。

ACL(the Association for Computational Linguistics)是國際上最有影響的計算語言學學術組織。它有很多下屬組織,如關於分析技術的SIGPARSE(the Special Interest Group on Natural Language Parsing)成立於1994年。關於中文信息處理的SIGHAN(the Special Interest Group on Chinese Language Processing, HAN乃“漢”的拼音)成立於2002年,每年跟隨ACL舉辦一次研討會(workshop)。SIGHAN於2003年、2005年、2006年組織了中文分詞比賽,擴大了它的影響。北大計算語言所也爲這些比賽提供過訓練語料和測試語料,並參加了第一次比賽(只限於美國賓州大學語料),並取得開放測試第一名的好成績。

順便談及國內,規模最大、影響最廣的學術組織自然是“中國中文信息學會”,成立於1981年。今年11月將召開“中國中文信息學會成立二十五週年學術會議”。

6、如何看待中文分詞技術和中文搜索引擎兩者之間的關係?

以“字索引”支撐的全文檢索技術應用到網頁檢索之所以不再有昔日的輝煌就是因爲互聯網上的信息太多了,量變引起質變,提高查準率成爲主要追求目標。對網頁文本進行切分建立詞索引爲搜索引擎提供了新的發展機遇。現在,在Yahoo,Google,百度等網站上檢索“華人”,給出的結果不再包含關於“中華人民共和國”的網頁信息,就是搜索引擎技術有重要進展的體現。

不過有兩點需要說明:
第一,這樣的技術並非是中文特別需要的,對於英語,如果只對word作索引,要檢索對應中文“筍”的“bamboo shoot”,會檢索到大量分別同“bamboo”或“shoot”相關的網頁,同樣降低了檢索“bamboo shoot”的正確率。

第二,不正確的切分對查準率和查全率都有損害,還是舉第2個問題答案中的例子,用戶鍵入“白天鵝”,原本要檢索“白色的天鵝”,如果切分成“白天/ 鵝/ ”,豈非“失之毫釐,謬以千里”。


7、什麼是中文命名實體的抽取技術?它和分詞技術之間有什麼關係?

2006年SIGHAN在其組織的比賽中增加了中文命名實體識別的項目。所謂命名實體在文本中就是指人名、地名、機構團體名稱、商品名稱等專有名詞。因爲它們通常具有唯一性,在信息檢索、信息提取等應用系統中受到特別的重視(當然要另有辦法解決難以完全避免的重名問題)。比SIGHAN早很多,TREC (Text REtrieval Conference)也組織過這類項目的比賽。

命名實體識別或者說抽取就是把這些專有名詞從文本或語句中分離出來。不難理解,命名實體抽取和詞語切分需要融合處理。由於詞典或訓練語料的有限性,命名實體識別常常表現爲新詞識別。機構團體的名稱通常很長,常由既有的切分單位組合而成。如果先做命名實體識別,對於由很多詞組成的單位名稱,又有進一步切分的必要。有時,專有名詞與普通名詞的詞形並無區別,如“鳳凰衛視中文臺”及其簡稱“鳳凰臺”是實體的專名,而其中的“鳳凰”、“衛視”、“中文臺”都是普通名詞,“衛視”又是“人造衛星轉播電視”的縮略語,這些問題糾纏在一起,無論中文命名實體抽取還是一般意義上的詞語切分都還有深入研究的必要。

8、隨着中文信息數字化進程的加快,特別是搜索引擎行業的發展,對中文語言處理人才的需求在加大,請介紹一下目前國內在這方面教育情況?

根據中國國家標準《學科分類與代碼表》(GB/T13745--92 )。在一級學科“計算機科學技術”下的二級學科“人工智能”裏包含三級學科“自然語言處理”(520.2020)。在一級學科“語言學”下的二級學科“應用語言學”裏包含三級學科“計算語言學”(740.3550)。由此可見,自然科學與語言學交叉滲透所取得的成果在學科體系中已經有了一席之地。不過,無論是“計算語言學”還是“自然語言處理”都還是三級學科,這意味着在大學裏設置系或專業從本科起就開始培養中文信息處理人才還是受到限制的。據筆者瞭解,目前只有北京大學中文系設有應用語言學(中文信息處理)專業,南京師範大學設有語言技術系。不過,培養研究生的路子就寬多了,中國的大學大約1990年代初開始培養“計算語言學”和“自然語言處理”研究方向的博士生,培養碩士生更早,1980年代中期就開始了。現在已有相當數量的博士和碩士在發揮生力軍的作用。

不過,按“計算語言學”和“自然語言處理”研究方向培養的博士和碩士屬於高級研究人才,數量畢竟有限,滿足不了中文信息化迅速發展的需求。特別是搜索引擎等信息服務業的發展,更增加了對既有計算語言學理論基礎、又有豐富的語言工程實踐經驗的工程技術人員的需求。鑑於這樣的認識,在楊芙清院士的倡導下,北大計算語言研究所北大軟件與微電子學院決定共同建設語言信息工程系,下設語言信息處理計算機輔助翻譯兩個專業。對學習合格的學生將授予北京大學工程碩士學位。這是中國計算語言學研究逐步成熟、走向社會、服務大衆的又一重要標誌。


9、請簡要介紹一下北大計算語言所的背景。開展了哪些中文語言處理方面的研究?取得了什麼樣的成績?

北京大學計算語言學研究所(Institute of Computational Linguistics,ICL)成立於1986年,是一個文理學科結合的研究所。20年來,在培養了數十名博士、碩士的同時,在計算語言學和自然語言處理技術領域進行了廣泛、深入的研究,研究課題涉及語言模型與分析技術、計算詞典學與詞典編纂、語料庫語言學、術語學與術語標準化、計算語義學、機器翻譯的理論與技術、自然語言處理評價技術、信息提取與信息檢索技術、中國古詩計算機輔助深層研究等,這些課題來自國家973、國家863、國家自然科學基金、國家社會科學基金、國家科技攻關項目和部級項目,也有與國內外著名企業、大學、研究機構的橫向合作項目。

除了論著之外,北大計算語言所在語言數據資源建設方面有較多的積累:現代漢語語法信息詞典(8萬詞語),大規模現代漢語基本標註語料庫(6000多萬漢字),面向漢英機器翻譯的現代漢語語義詞典(6萬),面向跨語言文本處理的中文概念詞典(10萬概念),句子對齊的雙語語料庫(80萬句對),多個專業領域的術語庫(35萬術語),現代漢語短語結構規則庫(600條規則)以及支持這些知識庫建設的工具軟件,如漢語詞語切分及詞性標註軟件、漢語詞語注音軟件等,這些知識庫和軟件已在世界各地得到廣泛應用,產生了廣泛的影響。

發佈了3 篇原創文章 · 獲贊 4 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章