中文信息處理技術概述

這是一篇2000年左右的老文章了,可以看看,特別是語料庫的建設歷史。

中文信息處理技術發展簡史

論文作者:張華平
摘要: 真正意義上的中文信息處理迄今已經有20餘年的歷史了,隨着計算機的普及和Internet的蓬勃發展,中文信息處理技術實實在在的改變了人們的生活。本文根據目前所能收集的文獻資料,集中整理了中文信息處理技術發展的簡史,並從自身專業的角度,針對重大的研究工作做了粗淺的評述,旨在提供一箇中文信息處理技術發展的脈絡,達到“以史爲鑑”或者“溫故而知新”的效果。
關 鍵 詞: 中文信息處理技術,簡史

1、引言

在我國,中文信息處理已經不是什麼新鮮事物了,隨着科學技術的發展,中文信息處理技術已經深入到了社會生活的各個方面。所謂“中文信息處理”,指的是用計算機對漢語(包括口語和書面語)進行轉換、傳輸、存貯、分析等加工的科學。它是一門與語言學、計算機科學、心理學、數學、控制論、信息論、聲學、自動化技術等多種學科相聯繫的邊緣交叉性學科,是自然語言信息處理的一個分支,需要以大量的語言知識、背景知識爲依據,對中文信息的人腦處理過程進行模擬。其中,“中文”是指中國通用的所有語言種類,包括漢語及其他少數民族的語言;但一般都是指漢語。“信息”是指能通過視覺、聽覺、嗅覺、味覺、觸覺等器官或儀器獲取,並有一定交際功能的東西,“信息”是不確定性的減少,是負熵。所謂“處理”,是指用計算機對信息進行各種加工,主要的是圖像信息和語言信息的識別、模擬、分析、轉換和傳輸。嚴格意義上講,“漢語計算機自動分析”比“中文信息處理”更加確切,爲表述的習慣,在這裏,我們依然沿襲這一稱呼。
2002年9月,筆者有幸參加了在臺北市舉行的第十九屆國際計算語言學學術會議(The 19th International Conference on Computational Linguistics) SIGHAN(Special Interest Group on HAN)研究興趣組關於“十年後的中文處理”的討論,臺北“中研院”的黃居仁教授詳盡的回顧了中文信息處理在臺北的二十年發展史。實際上,祖國大陸的中文信息處理歷史更加悠久、而且取得了許多實實在在的、改變了人們生活的成就,然而境外的研究羣體、我們國家非中文信息處理領域的人員、乃至從事這一方向研究的人員也知之甚少。因此,筆者依據目前所能收集的文獻資料,整理出中文信息處理二十年的科學發展史,並從自己專業的角度出發,予以評述,希望能對投身這一領域的研究人員或者工程技術人員提供一些歷史參考資料,並盼望有心人能夠“以史爲鑑”或者“溫故而知新”。
本文的第一部分將綜述中文信息處理的難點,第二部分按照發展的各個階段,闡述中文信息處理的發展史,最後探討目前中文信息處理的問題及應對方案。

2、中文信息處理的難點

漢語在世界上屬於漢藏語系,是一種孤立語。漢語在歷史上先後吸收和同化了匈奴、鮮卑、突厥、契丹、滿、蒙古、梵語等語言裏面的許多成分[1]。其主要特點有:
(1) 漢語的獨一無二的特色是:完全使用由象形文字演化而來的方塊漢字;
(2) 詞語沒有形態標記;
漢語是以字爲基本單位,詞之間沒有明顯的標記,詞本身也沒有明顯的形態標誌。所以中文信息處理的基礎課題和特有的問題就是中文分詞,分詞本身的也有一定的錯誤率[2],這無疑降低了後續處理的實際效果。
(3) 結構鬆散,比如:我上街買菜,看見一個人,穿着一件軍大衣,打了賣菜的一巴掌,臉都腫了。
(4) 語法靈活,即缺乏狹義的形態,漢語句子中各個成分之間的關係一靠詞序,二靠“意合”,三靠虛詞。[3]
(5) 語義靈活,一方面語法的靈活主要來源於語義的靈活;另一方面同一結構可以表達不同的意思,同一意思可以用不同結構表達。[3]
另外.現有的自然語言處理理論和技術大多都是以英語爲研究對象語言發展起來的.而漢語無論在語音、文字表示,還是在詞彙,語法,語義及其語用等各個層面上都與之存在着很大的差異.這使得無法直接套用西方已成熟的理論和技術,漢語無疑是計算模型比較不發達的語言。這對從事中文信息處理的研究者來說是一個巨大的挑戰和壓力。

3、 中文信息處理發展史

從我國早在1956年的開始了俄漢機譯研究,並於1959年取得成功,至今差不多有50年的歷史, 但當時的技術主要是詞與詞翻譯和模式匹配,缺乏句法和語義分析[4],幾乎談不上真正的中文信息處理。下面筆者依據時間順序,根據當時的主流研究方法和研究的主要問題,將中文信息處理技術的發展史分爲如下6個階段進行闡述。

3.1 學習和理論探索的萌芽階段

這一階段以介紹國外計算語言學領域的理論方法爲主。
對國外相關領域的介紹,理論內容相對較少,主要偏重在各種上機實現的系統方面。範繼淹[5]、徐志敏[5]、李家治[6]、陳永明[6]、馮志偉[7]等人的介紹及其所研製的實驗系統報告,是這方面的代表。早期將國外的理論方法進行全面系統漢化的主要刊物有:86年底創刊的《中文信息學報》,語言學界的《國外語言學》和《語言文字應用》。
學者們在介紹國外先進的理論和方法同時,也有不少人結合漢語自身的特點,對這些理論和方法做了深入一步的探索,極少數人對自然語言理解做了深層次的帶有哲學色彩的思考,如:80年代中期寧春巖發表的《自然語言理解中的幾個根本問題》[8],以及他譯介的美國哲學家休伯特.德雷福斯(Hubert L.Dreyfus)的專著《計算機不能做什麼--人工智能的極限》[9],語言學界袁毓林1993年發表了《自然語言理解的語言學假設》[10]。
這些早期的的研究和探索對確立中文信息處理的宏觀格局起到了決定性的作用[11]、奠定了中文信息處理後期的理論基礎。

3.2 漢字信息處理爲主的早期階段

1974年周恩來總理親自批准了“七四八”工程,它標誌着計算機中文信息處理技術受到了國家高度重視並且進入了他的第一個發展階段——漢字信息處理時代。[12] 。在新技術面前,完全使用由象形文字演化而來的方塊漢字不能直接進入電腦,因而受到了變革的衝擊。
1880年,丹麥人編制了漢字電報碼本,用於電報傳輸漢字;1956年,我國錢文浩提出了“碼化理論”,他認爲把漢字編爲4位數字的電碼,又把數字換成點和劃的系統,這兩個過程都是碼化過程,漢字被碼化後就可以作爲信息來傳輸和處理了。從那時到現在,研究漢字信息處理的有識之士,克服種種困難,已經創造出近1000個漢字輸入編碼方案了,1986年3月,國家有關部門舉辦了全國漢字編碼方案評測,有33個方案參評,評出大衆碼、五十字元碼、部形編碼、筆形編碼等11個A類方案。1987年10月,中國中文信息學會等組織的“中華杯”漢字錄入賽,操作員在規定字比賽中最高輸速達70字/分; 1990年,在海峽兩岸中文電腦表演賽上,專業操作員單字輸入達147.8字/分,詞語輸入達203.3字/分。在經歷了所謂萬“碼”奔騰的漢字編碼戰國時代之後,這方面的問題已經基本解決。從鍵盤到OCR到手寫識別到語音輸入,漢字的輸入方式已經是多種多樣,能夠滿足多種需要了。
跟漢字的輸出密切相關的是漢字字庫的信息壓縮技術。享有“當代畢昇”美譽的北京大學教授王選與其同事一道研製成功的漢字折線段壓縮技術,很好地解決了這個難題。從而劃時代地使漢字文獻的印刷出版告別鉛與火,進入電子時代。

3.3 字、詞等表層處理爲特徵的初級階段

漢字信息處理成功解決之後,接着面對的是更爲複雜的詞法分析問題。在這一階段主要研究和解決的問題就是字、詞等表層問題。[12]其中重要的史實有:
1. 北京大學開發的華光排版系統被評爲1985年中國十大科技成就之一,並榮獲中國發明協會發明獎。
2. “六五”期間(1981-1985),北京航空學院主持,中國人民大學等十幾個院校,研究機構參加的“現代漢語詞頻統計”工程是這一階段代表性的重大科研成果,這是國內首次使用計算機進行大規模語料(2000萬字)的詞頻統計研究的大型語言工程。專家們把這次詞頻統計工程稱之爲經國大業,不朽盛事。
3. 第一個漢語自動分詞系統——CDWS,建立了一個有13萬餘詞條的計算機詞典,研製了一個有52個屬性的漢字信息庫。
4. “七五”期間(1986-1990),建立了功能完備、實用有效的“漢字屬性系統”,編篆並出版了漢字屬性字典。
5. 1988年初,北京航空航天大學在承擔國家“七五”科技攻關項目《信息處理用規範現代漢語詞庫》的同時,提出並經過了三年的努力,汲取了語言界和計算機界數百名專家的寶貴建議和意見,最終制定了《信息處理用規範現代漢語分詞規範》,從計算機工程應用的需求出發,解決了語言學界爭論了幾十年而未解決的漢語的詞的定義問題。爲我國從漢字處理進入詞語、語句處理打下了基礎。

3.4 句法和語義等深層處理爲代表的中期階段

“八五”期間,中文信息處理技術的研究開發重點逐步由字、詞的表層處理轉向了以句法、語義分析爲核心的深層處理。電子部計算機與微電子發展研究中心(CCID)聯合國內從事中文信息處理的主要單位,從信息處理用漢語語法、語義體系的應用研究着手,以中文信息處理產品的智能化爲目標,組織實施了並形成了一個完整的中文信息處理應用平臺工程。
從80 年代開始,在借鑑國外的自然語言語義理論的基礎之上,先後提出了一系列符合漢語特點的語義分析方法和語義表示理論。如漢語格語法理論,漢語的各種信息在語義網絡中的表示方法等。 在構造語義規則時,基本上採用上下文無關文法(CFG)。與語法規則不同的是表示非終止符和終止符的內容是與語義有關的概念知識而不是VP(動詞短語)或N(名詞)等語法術語。

3.5 語料庫統計方法興起的近期階段

語言學的研究必須以語言事實作爲根據,必須詳盡地、大量地佔有材料,纔有可能在理論上得出比較可靠的結論。在這種工作中逐漸創造了一整套完整的理論和方法,形成了一門新的學科 – 語料庫語言學(corpus linguistics),併成爲了自然語言處理的一個分支學科。[13]
其中有影響力的中文生語料庫、詞語語料庫、句法語料庫有:
(1) 1979年,武漢大學建設的漢語現代文學作品語料庫,共計527萬字,是我國最早的機器可讀語料庫。
(2) 《人民日報》收集了48年的全部文字和圖像內容,公開發行。
(3) 北京大學計算語言學研究所與富士通公司(Fujitsu)合作,加工2700萬字的《人民日報》語料庫,加工項目包括詞語切分、詞性標註、專有名詞(專有名詞短語)標註。還要對多音詞注音。他們還建立了一個小型漢語樹庫:與新加坡國立大學計算機系合作,內容爲新加坡中學語文教材(1995年),所有的句子都分析爲樹形圖。北大語料庫的特點有:規模大、加工深、覆蓋面廣、正確率高、無著作權糾紛。
(4) 1998年,清華大學建立了1億漢字的語料庫,着重研究歧義切分問題。現在生語料庫已達7-8億字。
(5) 北京郵電大學在美國LDC的漢語句法樹庫的基礎上進行自動獲取語法規則的研究。LDC的樹庫包含新華社1994到1998年的325篇文章,包含4185顆樹,10萬個詞。
(6) 香港城市理工大學語言資訊科學研究中心建立了LIVAC(Linguistic variety in Chinese communities)語料庫,其宗旨在於研究使用中文的各個地區使用語言的異同。總字數爲15,234,551字,經過自動切詞和人工校對之後總詞數約爲8,869,900詞。
(7) 臺灣建立了平衡語料庫(Sinica Corpus,中央研究院)和樹圖語料庫(Sinica Treebank,中央研究院)。兩個都是標記語料庫,有一定加工深度。語料庫規模約500萬字。
口語語料庫主要是中國社會科學院語言所、中國科學院自動化所建設的;
用來翻譯和研究各種不同語言對比的語料庫有:北大、哈工大、東北大學建立的英漢雙語語料庫;北京外國語大學的北京日本學研究中心建立了2000萬字的漢語和日語並行語料庫;山東海洋大學的《蝴蝶》(王蒙小說)德漢對照語料庫;復旦大學計算機系建立了容量爲1GB漢日英分類熟語料庫,包含數千個類別,數十萬篇文章。
同時,我國少數民族語料庫有:新疆師範大學200萬詞的維吾爾語語料庫;中國社會科學院民族研究所500萬藏語字符的藏語語料庫;內蒙古大學的蒙古語語料庫,並進行了初步的切分和標註。

3.6 以Internet爲主要應用對象、大規模真實文本、智能信息訪問的現階段

近年來,Internet迅猛發展,根據中國互聯網絡信息中心發佈的報告,截止到2002年6月30日,中國上網計算機總數1613萬,上網用戶總數4580萬[14]。人們在享用Internet帶來的各種便利的同時,卻又被如何從浩如煙海的網上資源中,如何快速、高效的查找自己的信息所困擾,典型的主要需求有信息分類、信息提取、自動問答、基於內容的快速信息檢索、基於個性的信息推送,數字化圖書館和信息網格等。因此中文信息處理技術必須解決網絡環境下的、大規模的、信息(文本或語音)智能訪問、加工處理、自動分析理解。
現階段,中文信息處理的特徵主要表現爲:統計方法與規則方法相結合、基礎理論研究與實用系統並重、面向Internet的大規模真實文本的智能信息訪問。
1、統計與規則結合
現在人們已經不再做更多的“經驗主義”和“理性主義”的爭論,更多的是汲取兩家之長,以實用的智能化系統爲目標,以大規模語料測試爲評價目標。近年來,國家863計劃智能計算機專家組,曾對語音識別、漢字(印刷體和手寫體)識別、文本自動分詞、詞性自動標註、自動文摘和機器翻譯譯文質量等課題進行過多次有統一測試數據和統一計分方法的全國性評測[15]。最近剛剛結束的973專家組第二次漢英機器翻譯評測系統評測了國內主要的漢語詞法分析系統,獲得最好成績的中科院計算所漢語詞法分析系統ICTCLAS[16]就是採用了統計方法與規則相結合的手段。清華大學的黃昌寧教授等人就成功地結合語料庫統計與規則的優點.設計了一個統計與規則並舉的漢語句法分析模型CRSP, 在這個模型中.語料庫用來支持各類知識和統計數據的獲取.並檢驗句法分析的結果,規則主要用於鄰接短語的合併和依存的關係網的剪枝, 他們的實驗取得了令人滿意的結果。
2、基礎理論研究與實用系統並重
當前重大的基礎理論研究成果有:
1)董振東教授的知網;知網是一個以漢語和英語的詞語所代表的概念爲描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關係爲基本內容的常識知識庫,它爲語言信息處理的研發提供了豐富的知識資源。[17]
2)黃曾陽先生的HNC理論; HNC理論是”Hierarchical Network of Concepts(概念層次網絡)”的簡稱,是關於自然語言理解處理的一個理論體系。它以概念化、層次化、網絡化的語義表達爲基礎,把人腦認知結構分爲局部和全局兩類聯想脈絡,認爲對聯想脈絡的表達是語言深層(即語言的語義層面)的根本問題。中心目標是建立自然語言的表述和處理模式,使計算機能夠模擬人腦的語言感知功能。該理論使自然語言理解獲得了突破性的進展,它所蘊涵的精深豐富的思想對人工智能、語言學、計算機科學和認知科學等都具有重要的理論和應用價值,對中文信息處理和漢語研究尤其具有實際意義。
3)北京大學計算語言所的《現代漢語語法信息詞典》;它是以朱德熙先生提出的詞組本位語法體系作爲設置各項語法範疇的理論基礎。首先是選取一些具體的功能標準確定了漢語的詞語分類系統,並對照一個詞語的句法功能表現按義項把它歸入某個詞類;然後是以功能理念指導詞語語法屬性項目的設置,並根據一個詞語的實際用法情況標記它的屬性值。[11]
另外,北京大學計算語言所已經啓動一項建設中文類WordNet的重大基礎知識工程,它的建成,也將從根本上促進中文語義理解、句法分析等深層次的核心理解問題的解決。
3、面向Internet的大規模真實文本的智能信息訪問
主要的方向和系統有: 1)基於內容的搜索引擎,代表性的系統有北京大學天網、計算所的“天羅”、百度、慧聰等公司的搜索引擎; 2)信息自動分類、自動摘要、信息過濾等文本級應用,如上海交通大學納訊公司的自動摘要、復旦大學的文本分類,計算所基於聚類粒度原理VSM的智多星中文文本分類器;3)信息自動抽取,即將Internet上大量的非結構化的信息,抽取出格式化的數據,以備進一步的搜索應用。目前是研究熱點,至今還沒有實用的系統; 4)自動問答、機器翻譯等需要更多自然語言處理和理解的應用。

4、中文信息處理技術發展的問題與應對

二十餘年來,經過中國語言學家和計算機專家的艱辛努力,中文信息處理技術取得了非常驚人的成績。但是,相對於日益發展的Internet,相對於快速膨脹的中文信息、相對於十幾億中文語種用戶來說,現代中文信息處理技術依然滯後,很多技術和系統依然是實驗室的原型,離實際的應用還有較大差距。主要問題[3]體現在:
1、 漢語言學家沒有爲中文信息處理作好語言分析的準備,長期以來,對漢語的研究方法基本上是例舉性的,而非窮盡的;材料和對象基本上是書面的,而非口語的。
2、 中文信息處理研究力量分散而且存在着低層次重複、缺乏統一規範和標準的問題。
3、 現代漢語研究領域和計算機領域的隔絕狀態沒有出現根本性的改變。
筆者認爲,應對的措施關鍵在於:(1)聯合漢語研究專家和計算機專家,培養精通語言學和計算機技術的“兩棲”人才,緊密合作,集體攻關。(2)改變目前研究單位封閉、大而不細,全而不精、低水平重複、小作坊式的研究方式;將國家支持的研究成果開放,供廣大的研究人員自由共享,實現合作、互補、共贏。9月,中國科學院計算所向社會免費發佈15項研究成果的做法很值得中文信息處理的研究機構學習。同時,我們很欣喜地看到,在計算語言學專家白碩研究員、劉羣副研究員的倡導下,中國科學院計算所自然語言處理組搭建了中文自然語言處理開放平臺[18] (www.nlp.org.cn),並將他們多年的研究成果(包括所有相關的論文、源代碼、文檔等)無償的在平臺發佈,並採取開放自由源碼的方式,爲廣大的中文自然語言處理感興趣者、研究者、業界提供了一個可以共同建設的自由社區。自由社區裏,大家是建設者,同時也是共享的受益者,最終形成一種良性循環。這種合作機制能從根本上解決中文信息處理技術封閉、低水平重複的弊病。我們呼籲更多的中文信息處理領域的研究人員、工程技術人員加入到這個社區,真正的將我國的中文信息處理事業推向新的高度,造福廣大的中文語種社區,並讓中文真正走向世界!
附記 本文對中文信息信息處理領域20多年的歷史和評述,是極爲簡略和粗淺的。一方面受篇幅限制,一方面也因爲作者知識水平和認識的侷限,有很多重要的研究成果文中沒有提及,而評述不當也勢必存在,疏漏有誤之處懇請專家學者指正。
致謝 感謝劉羣副研究員、張浩學友提供的資料,感謝孫健博士、駱衛華碩士、鄒綱學友嚴格而有善意的討論;感謝Azalea朋友的建議。
參考文獻
[1] 白碩 . 計算語言學教程 . 2001.6:4-5
[2] 張華平,劉羣 . 基於N-最短路徑的中文詞語粗分模型 . 中文信息學報 . 2002. 16(5): 1-7
[3] 許嘉璐 . 現狀和設想——試論中文信息處理與現代漢語研究 . 中國語文 . 2000. 6
[4] 郭豔華,周昌樂 . 自然語言理解研究綜述 . 杭州電子工業學院學報 . 2000.2. 20(1)
[5] 範繼淹,徐志敏 . RJD-80型漢語人機對話系統的語法分析 . 中國語文 . 1982(3)
[6] 李家治,陳永明 . 機器理解漢語——實驗I . 心理學報 . 1982(1)
[7] 馮志偉 . 國外自然語言理解系統簡介 . 計算機科學 . 1984年第2期
[8] 寧春巖 . 自然語言理解中的幾個根本問題 . 語言研究 . 1985(2)
[9] 休伯特·德雷福斯(Hubert L.Dreyfus). 計算機不能做什麼--人工智能的極限 . 寧春巖譯,馬希文校 . 三聯書店 . 1986
[10] 袁毓林. 自然語言理解的語言學假設 . 中國社會科學 . 1993(1)
[11] 詹衛東 . 80年代以來漢語信息處理研究述評 . 當代語言學 . 2000.2 (1)
[12] 中國中文信息學會 . 我國中文信息處理的發展與展望 . 中國科學技術協會”科學技術面向新世紀”學術年會 . 1998.9 . 137-140
[13] 馮志偉. 中國語料庫研究的歷史與現狀. 國際中文電腦會議ICCC2001論文集(新加坡) . 2001.11 . 1-15
[14] 中國互聯網絡信息中心. 中國互聯網絡發展狀況統計報告(2002/7). . 2002.7 . 5
[15] 黃昌寧. 統計語言模型能做什麼?. 語言文字應用 . 2002,2002(1): 77-84
[16] Kevin Zhang (Zhang Hua-Ping), Qun Liu, etc. Automatic Recognition of Chinese Unknown Words based on Roles Tagging. SIGHAN, COLING2002 . 2002.9 .
[17] 杜飛龍. 知網闢蹊徑共享新天地—董振東先生談知網與知識共享. 微電腦世界. 2000.9 .
[18] 劉羣,張浩,白碩. 中文信息處理開放平臺的設計.第一屆學生計算語言學研討

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章