三字歧义链自动分词方法

三字歧义链自动分词方法

(
张翠英)(山西大学信息管理系,太原030006)
(
亢临生)(山西大学计算中心,太原030006)Three-words Ambiguity Chain and Word Segmentation

Zhang Cuiying
(Department of Information Management,Shanxi University,Taiyuan 030006)
Kang Linsheng
(Computer Centre,shanxi University,Taiyuan 030006)
1 分 析 过 程(如构词法、构形法、句法、语义等),设计出解决三字歧义链问题的实用分词规则。
  具体分析过程可概括为图
1
2.1 分析结果120万字。在分析过程中得出如下一些技术数据:
  分词词库规模:
50012
  二字词规模:
32826(占词库词条的66%)
  三字串库规模:636781
  分析真实语料:
120万字
  语料中出现的三字链次:
15972
  其中,只出现一次的三字链:
3625次,重复性出现的三字链:2332
  上述数据尽管只是对
120万字原语料进行分析的结果,但在120万语料中,包含了《人民日报》各栏目的内容,题材比较广泛,涉及到了社会科学和自然科学多方面的内容,对它的研究结论具有一定的实用价值。从原理上讲,就三字歧义库规模而言,出现三字歧义链的概率可能会相当大,但从真实语料中的搜索结果来看,大多数的三字歧义链在语言的实际应用中根本不会出现,因而,无需分析所有可能的三字歧义链。实际上,只对真实语料中出现的三字歧义链进行分析、研究、总结其规律和解决正确切分的方法,即能达到实用的目的。

2.2 三字歧义链分词特性(MM),并辅助一些特性词的处理规则(数字词规则、人名规则、前后缀规则、叠加成分规则、歧义规则等)2MM法的特点,三字歧义链按照前两个字的特性进行分类如下:
  
(1)三字链本身在切分时,应合成为一个词,而无需再分:19881月由温贝托大夫主持”等。3.1 分词方法的基本思路
  目前的分词算法多种多样,基本上可分为两大类:机械性分词和理解性分词法。后者可谓理想的方法,但在语法分析、语义分析乃至篇章理解还没有得到解决之前,其分词实用系统主要采用机械分词法,但实际上纯机械性分词也无人在用,一般都使用介于二者之间的某种分词法。
  在我们开发的分词系统中,分词法的基本思想是:在分词词库中收入一定量的实用词及一些具有某种特性的字/(如:前缀、后缀,基数字、词素、姓氏、单字词等),并对一些特性字/词或实用词加入一定分词特性信息。分词时,首先利用MM法从字串中匹配选出一个词/特性字,然后根据初选的词/字的分词特性调用相应规则,进行切分结果的调整,以保证分词的正确性。

3.2 三字歧义链切分规则
  对可能产生歧义切分的词(即三字链中的前二字)根据分词特点及前述的特性分类共使用了三种分词特性代码:PT(普通词代码:当初分出该词后无需进行歧义处理,即把该词作为分词结果,系统继续后继字串处理,前述[2]属此种情况)HH(后合特性代码:分出此类词后,系统要检测,此词的尾字是否与其后继字串可合成为词,若存在词,则第一字为词,第二字与后继字/字串组成词,前述[4]属此种情况)QY(即可能产生歧义切分,需用一组规则进行处理,前述[3]、[5]、[6]即属这种情况)
  另外,对[1]类情况根据MM法特点,三字词优先被选出,因而切分时,不再进行处理即可(实际切不出前两字或后两字组成的词);对[7]类问题应归于专用名的切分问题3,在此不作论述。
  下面对切分出分词特性为QYHH的词后的调整规则进行论述。设:CW:当前词(即分词特性为QY);其中CW分别为字。
  P=P1P2……:CW的后继字串;其中P1P2,…分别为单字。
  PIP中以Pi打头的子字串。
  含词:字串最左端含二字或二字以上的词(左字串为词)规则:
  (1)WP不含词,则CW切分为词。
  (2)WP1为词,P1不含词则:
  若P1为单字词且C为非单字词,或P1为后缀且CW为非拒合(即不能加后缀成份),则CW切分为词,否则C切分为词。
  (3)WP为词则顺序检测P2P3…,直至Pn不含词。
  ① 若从CPn的字数为偶数,则CW切分为词,否则:
  ② 若C为词素且P1为非词素,则CW切分为词,否则:
  ③ 若C为单字词且P1为词素,则C切分为词,否则:
  ④ 若存在某个含词的Pk的分词特性为hh,则当CPk为偶数时,CW切分为词,否则:
  ⑤ 在CP中检索出第一个特性为单字词的字,或姓氏、前缀、后缀字pkpk含词,则当cpk为偶数时,CW切分为词,否则,C切分为词。
  例如:“野生动物种类最多的国家之一”,包含野生动、生动物、动物种、物种类四个三字歧义链,在初分出“野生”后,根据其分词特性调用上述规则,C=野、W=生、P1=动、P2=物、P3=种、P4=类、P4=类最多的国家之一,而P4不含词,因从CP4字数为偶数,而能切分出:“野生”为正确结果。
。根据

  在我们开发的实用分词系统中采用的是最大匹配法

  对三字歧义链的分析基础是在分词系统软件中使用的分词词库及摘自《人民日报》不同时期、不同栏目的真实语料共计


摘要  歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类,对每类确定一组规则进行处理。
关键词  歧义 分词特性 分词系统

 


AbstractThe ambiguity is one of the important problem that need to solve in the automatic word segmentation.It is introduced in this paper that the maximum matching method which can be used to classify Chinese words and phrases according to their characteristics of word segmentation,mark them with different marks and process each group of words and phrases with a certain set of rules.
Keywordsambiguity,characteristics in word segmentation,word segmentation system.

  根据《信息处理用现代汉语分词规范》,以及自然语言理解领域中的研究结果表明,现代汉语的篇章中二字词占70%1以上。因而,在自然语言理解的基础工作——自动分词过程中,能有效地处理二字歧义组合结构就成了解决歧义组合结构的关键,本文就我们开发的“现代汉语自动分词实用系统”中采用的解决三字歧义链的方法作一概述。
  
  

12.gif (25855 bytes)
图1

 


  任何事物的产生和发展都有一定的特点和规律,因而找出现代汉语真实语料中出现歧义的三字链,并对它们进行分析、分类,进而总结出产生三字歧义链的特点规律,就成为解决问题的关键。在此基础上再利用汉语自身的知识

2 分析结果及三字串特性分类


1


  例如:“到了近代地理学
防护林体系建设工程之后”
发电机三大主机集中控制”
“公司先进工作者
  (2)三字链中,只能把前两个字处理为词:

2


  例如:前两字都为“干部”的三字链出现过12次,但都只能把“干部”切分为词:
    “选派干部长期深入下去帮助基层工作”应为“干部/长期;
“这样的干部下基层俺们打心眼里喜欢”应为:干部/下;
“甘肃省领导干部10路下去抓春耕”应为:干部/分等。
  (3)三字链中只能把后两个字切分为词,这类三字链又可根据第一字的分词特性分为:
  ① 第一字与前面有的字组合为词(实为连续三字链)

3


  例如:“造成交通堵塞”存在:造成交、成交通
“尽快形成规模”存在:形成规、成规模
“限时完成规定的目标”存在:完成规、成规定
  ② 第一字应单独切分为词:

4


  例如:“把稳定物价与适当调价结构统一在可靠的基础上”应分为:“把/稳定”;
  工人和班组长”应分为:班/组长;
“经济文化发展之不平衡”应分为:不/平衡;
“进一步调整租买比价”应分为:步/调整。
  (4)三字链中可能前两字应为词,也可能后两字应为词。
  在这类三字链中,又可根据第一字和第三字的特点分为二类:
  ① 只能第一字与前面的字成词或第三字与后面的字成词(同属连续三字链的情况)

5


  例如:以“产品”打头的三字歧义链共出现过110次,但都属于这类情况:
  “他们生产品种达60余种”应分为:“生产/品种”;
产品质量次的企业要停产整顿”应分为:“产品/质量”;
1980年荣获全国景泰兰产品评比第一名”应分为:“产品/评比”;
“为省优质产品评审委员会反映了意见”应分为:产品/ 评审”。
  ② 非①的情况:

6

  例如:以“工人”打头的三字链共出现50次,在不同的句子中具有不同的特性:
  “但工人们放弃了休息”应为“工人/们”;
“钟点工人数大增”应为“工/人数”;
“命名24工人为业余的作家”应为:“工人/为”。
  (5)由于人名、地名等专用名词引起的三字链

7

  “美国格伦威尔邮局……”;

3 三字歧义链切分方法

 

4 结  语

  上述是对二字词可能引起歧义切分的处理方法,同样可推广到多字词。通过对上述规则实用性验证(120万语料),其对一般二字词的歧义切分正确率达到了99%以上2,但不足之处是它不包含由于专用名词引起的歧义问题,由于专用名词(尤其是人名、地名)无法枚举,有限的词库规模无法满足这类问题的分词需要,它有待于自然语言理解各方面对这类问题的新的处理成果的应用。

参考文献

1] 李国臣、刘开瑛、张永奎:汉语自动分词及歧义组合结构的处理,《中文信息学报》,19882(3)8789
2] 亢临生、张永奎:基于标记的分词算法,《山西大学学报》,1994(2)283286
3] 亢临生、张永奎:利用分词属性解决歧义切分,《电脑开发与应用》,19947(4)25

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章