领域词汇知识库的类型、可用资源与构建技术漫谈

词是语言系统中重要的语言单元,词语是开展文本处理的基础,在语义表示上具有比字符更丰富的表达能力。词语具有领域特性,不同的领域具有不同的词汇体系,如军事领域、医疗领域、公共治安领域、金融领域之间存在着很大的差异性。这种领域性的特性,一方面可用于领域分类、领域标签化、领域区分、关键词提取以及特征词提取,也可支持知识图谱知识体系如本体与实例体系的搭建。另一方面,也提出了领域词汇的抽取,领域词汇之间语义关联的抽取、领域词汇的扩展、领域词汇知识库的构建等多项任务。与此相关的领域词汇挖掘技术是自然语言处理中的一项关键技术,也是支持公司业务落地和应用的必备能力之一。本期文章将紧紧围绕领域词汇知识库(以下简称领域词库)这一主题,对数地工场的领域词汇功能、领域词库的常见类型、领域词汇的构建技术和相关案例进行介绍。

一、数地工场的领域词汇功能
数地工场 (https://nlp.zhiwenben.com) 已经上线2周时间,在语义计算模块上,提供了针对词汇的语义联想和概念抽象两项功能;在信息抽取模块提供了关键词抽取功能,此后将提供其他相关功能。

1、 语义联想
数地工场中的语义联想,提供了针对用户输入词语路关联的近义词、反义词和相关词接口,例如输入“尊敬”一词,可以联想出“尊崇”、“崇敬”、“敬服”等近义词;“侮慢”、“蔑视”等反义词;“叩首”、“祭拜”等相关词,可用于词语拓展和关联推荐等应用。

在这里插入图片描述

2、 概念抽象
概念抽象,指针对用户输入的某个词语,得到该词语的迭代上位抽象路径,该路径在事件抽象、关联词拓展方面、加强对既定事物的认知等方面大有用处。例如,对于“航空母舰”并在这里插入图片描述不了解的人来说,可以通过概念抽象这一功能,得到了“航空母舰->船->交通工具->器具->无生物->物质->万物->实体”这条抽象路径,进一步形成“船”和“交通工具”的认知。

3、 关键词抽取
关键词抽取,可针对段落或文本进行处理,得到具有代表性的特征词集合,这一项常作为文本特征提取及表示使用。例如,针对当前“美国伊朗局势升级”这一主题下的文章,可以通过关键词提取技术,提取出相关的关键词列表,如“伊朗”、“美国”、“美伊”及相应的权重等。
在这里插入图片描述

二、领域词库的常见类型
不同的领域词库能够支持不同的应用,领域词库可以细分为领域特征词库、领域停用词库、领域情感词库、领域抽象词库、领域语义词库、领域事件词库等6种词库。

1、领域特征词库
领域特征词库,与领域强相关,具有领域区别能力形成的词语集合,如体育领域中常见的“篮球”、“足球”等词,文学领域常见的“令狐冲”、“鲁迅”等词、敏感词库,常用于不同领域文本的分类任务,如医疗领域特征词库、军事领域特征词库、治安领域特征词库中常作为贝叶斯方法的特征词以及基于机器学习方法的分类特征而存在。另外,不同领域的特征词典,常可用作业务指标词、数据项指标词。如金融领域中的财务词表、上市公司词表(曾用名、公司简称词表)、数据指标词表等在进行特定财务数据的提取中能够带来帮助。需要注意的是,领域特征词库往往与某个领域的具体业务内容相关,具有专业性的特征,往往只有相关领域的专家或业务人员才能够对该领域的词进行有效区分。因此,领域特征词库在构建的过程中,往往不能完全寄托于机器自动发现,而是需要专业人员进行标注筛选完成。

2、领域停用词库
停用词库往往是作为特征词提取中的一项重要外部资源而存在的,这个在文本分类、问句解析、句子主干化方面应用较多,常可以帮助过滤无关信息。领域性是停用词的一大特征,同一个词在某个领域是停用词,在另一个领域又不是停用词,如“开心”一词在军事领域可以常忽略不计,但在人类情感文本领域则是关键特征。领域停用词库,在构建阶段与领域特征词一样,需要人工加以校验过滤。但在算法逻辑上,可以通过低频过滤、领域通用词过滤、基于功能词性过滤(如过滤介词、副词、连词、助词等虚词)的方式进行。

3、领域情感词库
领域情感词库常作为情感分析、舆情计算中的一项重要外部语义计算资源而存在,通过对不同的情感词的极性以及对应的权重或者强度进行标记,采用基于依存语义、基于窗口的情感计算规则,能够完成相关篇章、段落、句子级别的情感判定以及系列度情感对提取任务。目前开源的可用的情感词库有一些,如大连理工大学开源的情感本体库,香港大学、台湾中文大学开源的情感词库等,但这些都是通用域的,在计算领域文本的情感时会出现一定的阻碍,如“升高”这一词,在形容“信心”、“经济发展速度”上时,是一种正向的情感倾向,但在描述“血压”、“血脂”、“自杀率”等疾病上,则表现出截然相反的一种情感。因此,在进行基于传统词典与规则的情感判定上,往往需要加建立起不同领域的情感词库加以区分和领域适应。

4、领域抽象词库
领域抽象词库,又叫做领域概念词库,往往作为知识图谱中的知识本体描述词汇以及语义推理上重要资源而存在。“抽象性”以及“概念性”是这类词库的重要特性,抽象性决定了这类词在对具体客观实体的描述上不再具有实例描述属性,而是更为抽象和上层的,如“动物”、“生物”、“人物”等,往往可以表示成某种实例的类型名称,即更偏向于类型层,这可以在百度百科、互动百科等百科分类体系、商品目录分类体系以及各个垂直网站的导航目录层级上,对知识实体的描述提供了较好的结构层次性特征和可用性。这种可用性体现在这种结构路径的可用性,可以通过迭代向上抽象的方式,得到某个领域词的抽象路径;可以通过这种抽象结构,完成不同层级的实体聚合以及实体扩展。抽象路径与实体扩展在搜索拓展、语义推荐上能够得到很好的运用。

5、领域语义词库
领域语义词库,特性主要体现在“语义”二字上,是从语言的语法特点和功能出发来说的。语法上,包括北大的语法信息词典,北大的实体概念词典、Hownet语义词典、CWB词典等,这几个语法词库,在对词的语法功能上都做了不同的工作,对词的内部结构信息进行了详细的标注,如北大的语法信息词典,以词类为划分标准讲汉语的常用词进行了划分,并对词性、搭配(前接成分和后接成分)进行了详细的标注;Hownet语义词典从义项的角度对词的义元进行了分解和注释。另外就是语义词库,这类语义词,侧重点不在词语的内部语法结构,而在词语的整体语义上。这类词库,常见的词库有哈工大发布的同义词词林扩展版,这个词库将同义词按照语义的相近程度进行了不同层次的聚类,可以作为同义词扩展提供帮助,另一个是情感分析任务中常用的情感词典(在上面有论述)。领域语义词库,可以在自然语言处理的任务中作为语法层面的特征提供帮助。

6、领域事件词库
领域事件词库,其特征在于“事件”二字,“事件”与常见的名词性实体不同,常常更偏向于动作性上,如“打架”、“斗殴”、“火山爆发”等,是对特定领域业务中的动作进行收纳和聚合。不同的领域有着自身不同的事件类型,事件类型可以通过具体的事件词列表进行表示,如金融领域中的“并购重组”、“上市”、“退市”、“资金冻结”,政治领域中的“总统大选”、“总统下台”、“支持率下降”;法律领域的“逮捕归案”、“越狱出逃”等事件等,这类事件词配合着事件之间的横向关联关系以及纵向上下位/组成关系,可以组成适用于某个特定领域的事件网络,并应用到与事件相关的各项业务当中。此外,事件词的挖掘和识别是一个难点,包括事件的边界确定,事件的范围确定等,在应对措施上,可以通过有监督的序列标注方法以及基于依存规则与模式的方式加以提取;也可以通过业务人员针对业务,将各个业务环节中的操作动作、用户日志行为进行抽象化和序列化,如典型的客服领域,可以将客服的各项动作逻辑都形式化成一个事件,设定触发条件以及事件之间的属性,将整张领域事件网络图搭建起来。

三、可用的领域词资源
冷启动问题是开展领域文本业务首要面临的问题,在这种没有数据沉淀以及可用数据人员的情况下,开源的可供免费使用的领域词库成为了首选。输入法、垂直网站、开源文件库这三类资源库,常可作为我们的领域词资源使用。

1、输入法词库
输入法是目前与我们生成文本内容信息作为主要的入口,而在这个生产过程当中,我们积累了大量的词库,主要体现在用户个人词库以及输入法开发商研制词库两个方面。目前可供我们使用的输入法有很多,包括搜狗输入法,QQ拼音输入法,百度输入法等,这些输入法在官网都有相应的公开词库供用户下载。不过,由于输入法词典是经过加密处理形成的一种非文本文件,往往需要借助脚本或者开源工具进行转换。如对于搜狗输入法而言,在主页中提供了包括农业、法律、生活、城市等十几个大类的词库,包括数千个.scel格式的词典文件,而无法直接以文本格式提取,可以借助奥创词库加以转换。输入法公开词典提供了大量的领域词库,但由于该词库大多是用户创建或上传的,因此在转换完成之后,还需要加以人工判定、筛选和过滤。

2、垂直网站
垂直网站为某个特定领域业务词汇的梳理提供了很好的数据来源的垂直定位,由于垂直网站的目标定位,网站内容较为单一和干净,这对于某个特定领域的词汇收集带来很大的操作空间。例如ZOL中关村在线提供手机最新价格及经销商报价,包括手机大全,手机参数,手机评测,手机图片,手机论坛等详细内容,购买手机提供全面参考,可以提供针对手机的词汇收集;又如针对金融领域而言,可以从东方财富网、同花顺网、和讯网等垂直网站的目录标签和导航页中解析出与上市公司、期货、宏观指标等特定词汇;又如,针对抽象类层级性词语的收集时,可以在百科分类体系以及义项上获取开放域的上下位抽象概念;在京东、淘宝的页面上获取商品类别的抽象层级性词汇;在原材料供应网站的页面上获取原材料的上下位抽象层级词汇。用好垂直网站页面上的内容,能够最大程度上的解决特定业务开展的冷启动问题。

3、开源文库
与输入法开源词库以及垂直网站不同,开源文库以直接可读、全民共同编辑的形式为业务开展的冷启动问题和词汇扩展问题提供了一个方案。典型的开源文库,包括百度文库、新浪爱问知识平台提供了各种形式的领域词库信息,其特征主要体现在收费和格式上,对于一些高质量的词库,往往需要付费才能够使用,此外,TXT、XLS、DOC、DOCX、PDF等格式各异,也给后期的处理和整理带来困难,这一点在实际的使用过程中需要加以注意。

四、常用的领域词构建方法有哪些?
领域词库有着不同的收集来源和类型划分,针对不同类型的领域词库,需要结合实际的业务情况,合理的选用不同的方式来完成冷启动词典构建或者启动中的词语扩充工作。以下介绍了基于公开词库资源的整理和转换、基于种子词语及频繁模式的词汇扩展、基于种子词语及分布式表示的词汇扩展三种构建方法。

1、基于公开词库资源的整理与转换
输入法、垂直网站、开源文件库这三类资源库,常可作为我们的领域词资源构建中的语义资源,根据业务需求,可以从中择一或者采用三者并行的方式来进行收集。针对输入法词库中不可直接读取的.scel格式的词典文件,可以借助奥创词库加以转换,并根据实际的业务需求将纯文本形式转换成所需格式。针对垂直网站页面中的领域词汇信息,则可以借助定点爬虫以及xpath网页文本解析的方式加以转换和存储;针对从百度文库等公开文库平台上下载的词库资源,可以通过手工或者脚本转换的方式进行整理。

2、基于种子词语及频繁模式的词汇扩展
基于种子词语及频繁模式的词汇扩展是常用的一种基于规则的词汇扩展方法,通过输入的种子特征词库,通过计算种子特征词库所在上下文的特征,并进行频繁模式挖掘,如BootsTrapping自举的方法,完成种子词与相关词的扩展。例如,针对领域情感词的扩充任务来说,可以通过SO-PMI算法来计算种子情感词与情感候选词之间的点间互信息,其思想为:选用一组褒义词(Pwords)跟一组贬义词(Nwords)作为基准词。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值,就可以根据该差值判断词语word1的情感倾向。当SO-PMI(word1)> 0时,为正面倾向,即褒义词;当SO-PMI(word1) = 0时,为中性倾向,即中性词;当SO-PMI(word1) < 0时,为负面倾向,即贬义词。通过这种扩展方法,可以挖掘出不同领域的情感词。

又如,在扩展规则上,可以使用当前可用的语义词库如近义词词库、反义词词库、抽象类词库中词语词之间的关联关系完成相应扩充。

3、基于种子词语及分布式表示的词汇扩展
与基于频繁集的词汇扩展方式不同,分布式表示的词汇扩展从词语之间的空间距离关系角度出发提供了入口。2013年,Google开源了一款用于词向量计算的工具—word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果—词向量(word embedding),可以很好地度量词与词之间的相似性。词语类比是词语扩展中的一个例子,给定 king - man + woman = queen, 当将该例子换成中文映射到训练好的wordvec中文词向量中可以实现“国王 - 男人 + 女人 = 王后”该结果的输出。基于wordvec找词语相似也是一个应用,给定种子词“自然语言处理”,通过词语之间相似度的计算,可以得出“自然语言处理、自然语言理解、计算机视觉、深度学习、机器学习、图像识别、语义理解、自然语言识别、知识图谱自然语言、自然语音处理”等一系列的词。当然,wordvec只是进行词语分布式表示方法的一种,可以通过其他方式完成词向量的表示。

五、结语
不同的领域词库能够支持不同的应用,领域词库可以细分为领域特征词库、领域停用词库、领域情感词库、领域抽象词库、领域语义词库、领域事件词库等,冷启动问题是开展领域文本业务首要面临的问题,在在这种没有数据沉淀以及可用数据人员的情况下,开源的可供免费使用的领域词库成为了首选。输入法、垂直网站、开源文件库这三类资源库,常可作为我们的领域词资源使用。领域词库有着不同的收集来源和类型划分,针对不同类型的领域词库,需要结合实际的业务情况,合理的选用不同的方式来完成冷启动词典构建或者启动中的词语扩充工作。领域词汇挖掘在自然语言处理中扮演着举足轻重的作用,领域词汇构建与应用技术是数地工场平台建设的一个方向,我们后期将上线相关的领域词汇构建模块。

数地工场是由中科院软件所智慧金融团队(数据地平线)以近年来在金融领域的技术积累为基础,基于并行计算系统、分布式爬虫技术、语义知识库构建技术、语义分析技术,一站式满足用户网页信息采集、多源异构信息抽取、语义计算、舆情分析、语言资源构建等中文自然语言处理需求的语义开放平台。

数地工场围绕数据、事件、逻辑三个方向,提供数据提取(面向多源异构数据的结构化提取与标准化),事件提取(领域事件识别、元素识别与建模管理),逻辑推理(事件关系识别、事件体系构建、事件逻辑推理)等自然语言处理接口工具资源。

更多商业合作,请咨询[email protected]。欢迎扫描下图二维码加入我们的种子用户QQ群成为我们的VIP客户,VIP客户可优先免费体验新功能,客服1v1人工服务,意见反馈优先处理等众多福利~我们也会在群里不定期的发放优惠和福利,欢迎大家在QQ中搜索QQ号:742846873或微信扫描下方二维码加入~

在这里插入图片描述

发布了53 篇原创文章 · 获赞 131 · 访问量 9万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章