自然语言处理发展及应用综述 笔记
一、小结
这一篇论文主要介绍了自然语言处理的整体研究方法,包括五步,即获取语料、对语料预处理、进行特征化、进行模型训练和最后的建模效果评估。绝大多数研究方法都遵循这五步。
然后是自然语言处理基础研究的区分,有词法分析、句法分析、语用分析和语义分析。其中语义分析是NLP研究的重点方向。
最后是对NLP研究领域的介绍,包括信息检索(IE)、文本分类、情感分析、机器翻译、社会计算、信息抽取(IR)和自动文摘。本篇论文详细介绍了信息抽取和自动文摘的内容。
目前在各种细分的技术领域中,主要是依靠机器学习和深度学习来探索更优的方案。
原论文为自然语言处理发展及应用综述,赵京胜著。
二、自然语言处理的研究方法
1. 自然语言处理的研究方法
- 基于规则和基于统计的方法
- 自然语言处理受数据影响较大,而数据的增长是大多数 NLP 应用(如机器翻译)性能提高的原因,所以拥有强大的数据支持才可以更好的对文本进行进一步的理解和分析,这使得如今很多NLP应用程序采用数据流分析方法。
2. 自然语言的处理流程
- 第一步获取语料
- 第二步对语料进行预处理
- 第三步特征化,也就是向量化
- 第四步模型训练,包括传统的有监督、半监督和无监督学习模型等(训练模型时可能会出现过拟合和欠拟合的状况)
- 第五步对建模后的效果进行评价,常用的评测指标有准确率(Precision)、召回率 (Recall)、F 值 (F-Measure)等。准确率是衡量检索系统的查准率;召回率是衡量检索系统的查全率;而 F 值是综合准确率和召回率用于反映整体的指标,当 F 值较高时则说明试验方法有效。
三、自然语言处理基础研究
1. 词法分析
-
词法分析主要包括分词、词性标注、命名实体识别和词义消歧。
-
词性是词汇最基本的语法属性,使用词性标注便于判定每个词的语法范畴。
-
词义标注、词义消歧主要解决多语境下的词义问题 ,解决一次多义。
-
词法分析是最核心的部分。
-
命名实体识别的主要任务是识别文本中具有特定意义的词语如人名、地名等,并为其添加标注。
-
词法分析的实现主要通过基于规则、基于统计、基于机器学习的方法。
2. 句法分析
-
句法分析的主要任务是为了确定句子中各组成成分之间的关系,也就是其句法结构。
-
完全句法分析是要通过一套完整的分析过程获得一个句子的句法树。对完全句法分析来说 ,Chomsky 形式文法是极为重要的理论,根据重写规则分为 4 级,分别是 0 型文法(无约束文法)、1 型文法(上下文有关文法)、2 型文法(上下文无关文法)和 3 型文法(正则文法)。这 4 种文法统称为短语结构语法。
-
浅层句法分析可分为两个子任务 :
- 其一是识别和分析语块;
- 其二是分析语块之间的依附关系。
-
依存句法也称从属关系语法。一个依存关系可分为核心词和依存词。核心词是一个句子的根节点,它负责支配句子中的其他词。
3. 语义分析
在词的层面上,语义分析指词义消歧;在句的层面上指语义角色标注;在篇章的层面上指共指消解。语义分析是目前NLP研究的重点方向。
4. 语用分析
语用分析有四大要素:发话者、受话者、话语内容和语境。
三、自然语言处理的技术领域
1. 信息检索(IR)
- 第一个任务是存储海量信息;
- 第二个任务是根据用户需求快速查找相关信息。
2. 文本分类
根据一套分类规则对文本进行自动分类的过程。
3. 情感分析
是一种通过判断文本情感极性去表征文档的技术。
4. 机器翻译
是通过计算机将一种语言翻译到其他语言。
5. 社会计算
采用互联网、大数据和机器学习等技术来研究社会问题,并寻找出一种合适的方法去解决问题。
6. 信息抽取(IE)
-
含义:信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程
-
信息抽取的过程
- 首先对非结构化的数据进行自动化处理;
- 其次是针对性的抽取文本信息;
- 最后对抽取的信息进行结构化表示;
-
信息抽取的主要方法
- 基于规则的方法
- 基于统计的方法
- 机器学习的算法(近年来的重点);早期信息抽取主要用到的方法是模式匹配,后来又推出了基于词典驱动的方法,如今主要在基于本体的关系抽取的基础上,采用机器学习的方法来获取关系特征。
-
重点的机器学习算法
-
Golshan提出该领域的最新方法有基于机器学习的方法和基于深度学习的方法。这些方法为信息抽取技术(IE)的出现奠定了基础。
-
Niklaus 等人概述了解决Open IE 的几种方法,并将他们归为三类:
- 基于规则的方法;
- 基于学习的方法;
- 基于clause系统的方法。
-
Cui等人提出了一种基于编译码框架的神经 Open IE 方法,将 Open IE 转换为一个序列到序列生成的问题,其中输入序列是句子,输出序列是一种带有特殊占位符的元组。
-
重要结论:研究表明,神经 Open IE 系统的性能显著优于多数基线,它的精度和召回率方面也明显优于其他方法。
-
-
信息抽取的主要工作
- 实体识别与抽取
- 实体消歧
- 关系抽取
- 事件抽取
-
命名实体识别(NER),主要任务是识别文本具有特定意义的词语,并为其添加相应的标注。
- 早期命名实体识别采用基于规则的方法;
- 近期人们利用机器学习建立知识库再对文本进行处理的方法提高效率。国内近几年的研究热点集中在应用阶段,命名实体识别也进入到实用阶段。
-
实体消歧就是确定某一实体所指向的某一确定实体
- 主要有基于聚类的实体消歧;
- 基于实体链接的实体消歧。
-
关系抽取作为信息抽取的核心工作,主要任务是获取实体之间在语义上的联系。
7. 自动文摘
-
自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术。
-
自动文摘的目标
- 首先使语言的简短;
- 其次要保留重要信息。
-
自动文摘的分类
- 抽取式摘要是选取原文中部分关键词组合成一篇摘要;
- 生成式摘要是指当计算机通读原文并理解了文章的基础上,间接凝练出原文的主旨要点。
-
自动文摘的主要过程
- 首先对语料进行预处理,识别冗余信息;
- 其次是对文本内容进行选取和泛化;
- 最后对文摘进行转换和生成。
-
自动文摘主要方法
- 基于规则的方法。Lead 方法是基于规则的抽取式自动摘要中的常用方法,虽然规则简单但是效果较好,特别是对于新闻类的文摘;
- 图模型可直观表达出词与词之间的关联信息,弥补传统向量法的不足。经典的 TextRank算法模型就属其中一种;
- Neto等人提出了一种基于可训练机器学习算法的摘要过程,实验表明采用朴素贝叶斯的可训练方法分类器明显优于所有基线方法。
- 基于大量金融领域的长文本语料,王帅提出了一种新摘要方法叫做:TP-AS,该方法采用两阶段自动生成摘要方法,其准确性在 ROUGE-1 的指标下达分别达到了36.6%(词)和 33.9%(字符),结果明显优于其他方法。
- Liu提出了一种基于模型的 NEXTSUM 方法,生成的摘要的长度与人工编写的黄金标准的长度呈正相关,表明可以隐式地捕获源文章中有多少值得摘要的内容。