三字歧義鏈自動分詞方法

三字歧義鏈自動分詞方法

(
張翠英)(山西大學信息管理系,太原030006)
(
亢臨生)(山西大學計算中心,太原030006)Three-words Ambiguity Chain and Word Segmentation

Zhang Cuiying
(Department of Information Management,Shanxi University,Taiyuan 030006)
Kang Linsheng
(Computer Centre,shanxi University,Taiyuan 030006)
1 分 析 過 程(如構詞法、構形法、句法、語義等),設計出解決三字歧義鏈問題的實用分詞規則。
  具體分析過程可概括爲圖
1
2.1 分析結果120萬字。在分析過程中得出如下一些技術數據:
  分詞詞庫規模:
50012
  二字詞規模:
32826(佔詞庫詞條的66%)
  三字串庫規模:636781
  分析真實語料:
120萬字
  語料中出現的三字鏈次:
15972
  其中,只出現一次的三字鏈:
3625次,重複性出現的三字鏈:2332
  上述數據儘管只是對
120萬字原語料進行分析的結果,但在120萬語料中,包含了《人民日報》各欄目的內容,題材比較廣泛,涉及到了社會科學和自然科學多方面的內容,對它的研究結論具有一定的實用價值。從原理上講,就三字歧義庫規模而言,出現三字歧義鏈的概率可能會相當大,但從真實語料中的搜索結果來看,大多數的三字歧義鏈在語言的實際應用中根本不會出現,因而,無需分析所有可能的三字歧義鏈。實際上,只對真實語料中出現的三字歧義鏈進行分析、研究、總結其規律和解決正確切分的方法,即能達到實用的目的。

2.2 三字歧義鏈分詞特性(MM),並輔助一些特性詞的處理規則(數字詞規則、人名規則、前後綴規則、疊加成分規則、歧義規則等)2MM法的特點,三字歧義鏈按照前兩個字的特性進行分類如下:
  
(1)三字鏈本身在切分時,應合成爲一個詞,而無需再分:19881月由溫貝託大夫主持”等。3.1 分詞方法的基本思路
  目前的分詞算法多種多樣,基本上可分爲兩大類:機械性分詞和理解性分詞法。後者可謂理想的方法,但在語法分析、語義分析乃至篇章理解還沒有得到解決之前,其分詞實用系統主要採用機械分詞法,但實際上純機械性分詞也無人在用,一般都使用介於二者之間的某種分詞法。
  在我們開發的分詞系統中,分詞法的基本思想是:在分詞詞庫中收入一定量的實用詞及一些具有某種特性的字/(如:前綴、後綴,基數字、詞素、姓氏、單字詞等),並對一些特性字/詞或實用詞加入一定分詞特性信息。分詞時,首先利用MM法從字串中匹配選出一個詞/特性字,然後根據初選的詞/字的分詞特性調用相應規則,進行切分結果的調整,以保證分詞的正確性。

3.2 三字歧義鏈切分規則
  對可能產生歧義切分的詞(即三字鏈中的前二字)根據分詞特點及前述的特性分類共使用了三種分詞特性代碼:PT(普通詞代碼:當初分出該詞後無需進行歧義處理,即把該詞作爲分詞結果,系統繼續後繼字串處理,前述[2]屬此種情況)HH(後合特性代碼:分出此類詞後,系統要檢測,此詞的尾字是否與其後繼字串可合成爲詞,若存在詞,則第一字爲詞,第二字與後繼字/字串組成詞,前述[4]屬此種情況)QY(即可能產生歧義切分,需用一組規則進行處理,前述[3]、[5]、[6]即屬這種情況)
  另外,對[1]類情況根據MM法特點,三字詞優先被選出,因而切分時,不再進行處理即可(實際切不出前兩字或後兩字組成的詞);對[7]類問題應歸於專用名的切分問題3,在此不作論述。
  下面對切分出分詞特性爲QYHH的詞後的調整規則進行論述。設:CW:當前詞(即分詞特性爲QY);其中CW分別爲字。
  P=P1P2……:CW的後繼字串;其中P1P2,…分別爲單字。
  PIP中以Pi打頭的子字串。
  含詞:字串最左端含二字或二字以上的詞(左字串爲詞)規則:
  (1)WP不含詞,則CW切分爲詞。
  (2)WP1爲詞,P1不含詞則:
  若P1爲單字詞且C爲非單字詞,或P1爲後綴且CW爲非拒合(即不能加後綴成份),則CW切分爲詞,否則C切分爲詞。
  (3)WP爲詞則順序檢測P2P3…,直至Pn不含詞。
  ① 若從CPn的字數爲偶數,則CW切分爲詞,否則:
  ② 若C爲詞素且P1爲非詞素,則CW切分爲詞,否則:
  ③ 若C爲單字詞且P1爲詞素,則C切分爲詞,否則:
  ④ 若存在某個含詞的Pk的分詞特性爲hh,則當CPk爲偶數時,CW切分爲詞,否則:
  ⑤ 在CP中檢索出第一個特性爲單字詞的字,或姓氏、前綴、後綴字pkpk含詞,則當cpk爲偶數時,CW切分爲詞,否則,C切分爲詞。
  例如:“野生動物種類最多的國家之一”,包含野生動、生動物、動物種、物種類四個三字歧義鏈,在初分出“野生”後,根據其分詞特性調用上述規則,C=野、W=生、P1=動、P2=物、P3=種、P4=類、P4=類最多的國家之一,而P4不含詞,因從CP4字數爲偶數,而能切分出:“野生”爲正確結果。
。根據

  在我們開發的實用分詞系統中採用的是最大匹配法

  對三字歧義鏈的分析基礎是在分詞系統軟件中使用的分詞詞庫及摘自《人民日報》不同時期、不同欄目的真實語料共計


摘要  歧義問題是自動分詞系統中要解決的主要問題之一。本文介紹一種在最大匹配法基礎上,根據大量的真實語料中出現的歧義現象,把可能產生歧義切分的詞進行特性分類,對每類確定一組規則進行處理。
關鍵詞  歧義 分詞特性 分詞系統

 


AbstractThe ambiguity is one of the important problem that need to solve in the automatic word segmentation.It is introduced in this paper that the maximum matching method which can be used to classify Chinese words and phrases according to their characteristics of word segmentation,mark them with different marks and process each group of words and phrases with a certain set of rules.
Keywordsambiguity,characteristics in word segmentation,word segmentation system.

  根據《信息處理用現代漢語分詞規範》,以及自然語言理解領域中的研究結果表明,現代漢語的篇章中二字詞佔70%1以上。因而,在自然語言理解的基礎工作——自動分詞過程中,能有效地處理二字歧義組合結構就成了解決歧義組合結構的關鍵,本文就我們開發的“現代漢語自動分詞實用系統”中採用的解決三字歧義鏈的方法作一概述。
  
  

12.gif (25855 bytes)
圖1

 


  任何事物的產生和發展都有一定的特點和規律,因而找出現代漢語真實語料中出現歧義的三字鏈,並對它們進行分析、分類,進而總結出產生三字歧義鏈的特點規律,就成爲解決問題的關鍵。在此基礎上再利用漢語自身的知識

2 分析結果及三字串特性分類


1


  例如:“到了近代地理學
防護林體系建設工程之後”
發電機三大主機集中控制”
“公司先進工作者
  (2)三字鏈中,只能把前兩個字處理爲詞:

2


  例如:前兩字都爲“幹部”的三字鏈出現過12次,但都只能把“幹部”切分爲詞:
    “選派幹部長期深入下去幫助基層工作”應爲“幹部/長期;
“這樣的幹部下基層俺們打心眼裏喜歡”應爲:幹部/下;
“甘肅省領導幹部10路下去抓春耕”應爲:幹部/分等。
  (3)三字鏈中只能把後兩個字切分爲詞,這類三字鏈又可根據第一字的分詞特性分爲:
  ① 第一字與前面有的字組合爲詞(實爲連續三字鏈)

3


  例如:“造成交通堵塞”存在:造成交、成交通
“儘快形成規模”存在:形成規、成規模
“限時完成規定的目標”存在:完成規、成規定
  ② 第一字應單獨切分爲詞:

4


  例如:“把穩定物價與適當調價結構統一在可靠的基礎上”應分爲:“把/穩定”;
  工人和班組長”應分爲:班/組長;
“經濟文化發展之不平衡”應分爲:不/平衡;
“進一步調整租買比價”應分爲:步/調整。
  (4)三字鏈中可能前兩字應爲詞,也可能後兩字應爲詞。
  在這類三字鏈中,又可根據第一字和第三字的特點分爲二類:
  ① 只能第一字與前面的字成詞或第三字與後面的字成詞(同屬連續三字鏈的情況)

5


  例如:以“產品”打頭的三字歧義鏈共出現過110次,但都屬於這類情況:
  “他們生產品種達60餘種”應分爲:“生產/品種”;
產品質量次的企業要停產整頓”應分爲:“產品/質量”;
1980年榮獲全國景泰蘭產品評比第一名”應分爲:“產品/評比”;
“爲省優質產品評審委員會反映了意見”應分爲:產品/ 評審”。
  ② 非①的情況:

6

  例如:以“工人”打頭的三字鏈共出現50次,在不同的句子中具有不同的特性:
  “但工人們放棄了休息”應爲“工人/們”;
“鐘點工人數大增”應爲“工/人數”;
“命名24工人爲業餘的作家”應爲:“工人/爲”。
  (5)由於人名、地名等專用名詞引起的三字鏈

7

  “美國格倫威爾郵局……”;

3 三字歧義鏈切分方法

 

4 結  語

  上述是對二字詞可能引起歧義切分的處理方法,同樣可推廣到多字詞。通過對上述規則實用性驗證(120萬語料),其對一般二字詞的歧義切分正確率達到了99%以上2,但不足之處是它不包含由於專用名詞引起的歧義問題,由於專用名詞(尤其是人名、地名)無法枚舉,有限的詞庫規模無法滿足這類問題的分詞需要,它有待於自然語言理解各方面對這類問題的新的處理成果的應用。

參考文獻

1] 李國臣、劉開瑛、張永奎:漢語自動分詞及歧義組合結構的處理,《中文信息學報》,19882(3)8789
2] 亢臨生、張永奎:基於標記的分詞算法,《山西大學學報》,1994(2)283286
3] 亢臨生、張永奎:利用分詞屬性解決歧義切分,《電腦開發與應用》,19947(4)25

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章