自然语言处理发展及应用

注：本篇博客为文献学习笔记
参考文献：自然语言处理发展及应用综述_赵京胜

Summary

总结了自然语言处理的概念、发展历史、研究方法、基础研究的四个层次、应用领域、预测与展望。
(其中详细讲了文本抽取和自动文摘，我对于这两个没有深入研究，只是进行了简单的了解。)

概念

定义

自然语言处理（Natural Lan-guage Processing，NLP）是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言，是一种研究语言能力的模型和算法框架，是语言学和计算机科学的交叉学科。

流程

自然语言理解（Natural language Un-derstanding ，NLU）,NLU 主要是理解文本的含义，具体到每个单词和结构都需要被理解；
自然语言生成（Natural language Generation，NLG）,NLG 与理解相反，分三个阶段
1. 确定目标
2. 通过评估情况和可用的交际资源来计划如何实现目标
3. 并将计划形成为文本
4. 有点不太理解是怎么生成的

发展历史

四个阶段：

1956 年以前的萌芽期
- 1936 年 A.M.Turing 发明了“图灵机”
- 后来 Kleene 又在这种模型之上提出了有限自动机和正则表达式。
1957-1970 年是快速发展期
- 1956 年，Chomsky 提出了上下文无关语法
- 快速发展期，上下文无关语法的提出使得该领域的研究分为了基于规则的符号派和基于概率的随机派
1971-1993 年是低谷发展期
- 70 年代的语音识别算法研制成功，隐马尔科夫模型（Hidden Markov Model，HMM）提出并得到了广泛应用[1]
1994 年到如今是复苏融合期
- 首先是概率方法的大规模应用；
- 其次是计算机的速度和存储量的大幅度提高，促使该领域的物质基础得到了改善；
- 最后是网络技术的发展带来的强大推动力。

研究方法

中文信息处理主要是对字、词、段落或篇章进行处理。

基于规则的方法
- 前者是人工根据语言相关的规则对文本进行处理；
基于统计的方法
- 后者则是通过大规模的数据库分析数据，从而实现对自然语言的处理。

>自然语言处理流程(部分不太理解)

获取预料
对语料进行预处理
- 语料清理
- 分词
- 词性标注
- 去停用词
特征化（向量化）
- 把分词后的字和词表示成计算机可计算的类型向量），这样有助于较好的表达不同词之间的相似关系。
模型训练
- 有监督、半监督和无监督学习模型
- 训练模型时可能会出现过拟合和欠拟合的状况
- 过拟合
  - 学习到了噪声的数据特征
  - 解决过拟合的方法主要有增加正则化项从而增大数据的训练量
    - 不太理解
- 欠拟合
  - 是不能较好的拟合数据
  - 解决欠拟合则要减少正则化项，增加其他特征项处理数据
    - 不太理解
对效果进行评价
- 评测指标有准确率(Precision)、召回率 (Recall)、F 值 (F-Measure）等
- 准确率(Precision)
  - 准确率是衡量检索系统的查准率
- 召回率 (Recall)
  - 召回率是衡量检索系统的查全率
- F 值 (F-Measure)
  - 综合准确率和召回率用于反映整体的指标，当 F 值较高时则说明试验方法有效
- 不太理解准确率和召回率

基础研究的四个层面

>1. 词法分析

词法分析主要包括分词、词性标注、命名实体识别和词义消歧。词性和词义标注是词法分析的主要任务。在中文自然语言处理的分词模块中，词法分析是最核心的一部分，只有做好分词工作，剩下的工作才能顺利进行。
词性是词汇最基本的语法属性，使用词性标注便于判定每个词的语法范畴。
词义标注、词义消歧主要解决多语境下的词义问题，因为在多语境下一个词可能会拥有很多含义，但在固定情境下意思往往是确定的。
命名实体识别的主要任务是识别文本中具有特定意义的词语如人名、地名等，并为其添加标注，是自然语言处理的一个重要工具。
词法分析的实现主要通过基于规则、基于统计、基于机器学习的方法。

>2. 句法分析

句法分析的主要任务是为了确定句子中各组成成分之间的关系，也就是其句法结构，技术实现上主要分为修辞结构分析和依存关系分析，功能上可分为完全句法分析和局部句法分析。

修辞结构分析
依存关系分析
- 依存句法也称从属关系语法。一个依存关系可分为核心词和依存词[6]
- 核心词是一个句子的根节点，一个句子只有一个，它负责支配句子中的其他词，核心词一般与依存词之间存在着一定的关系，如主谓关系、动宾关系和并列关系等。
完全句法分析
- 完全句法分析是要通过一套完整的分析过程获得一个句子的句法树
- Chomsky 形式文法是极为重要的理论，根据重写规则分为 4 级[5]
  - 0 型文法（无约束文法）
  - 1 型文法（上下文有关文法）
  - 2 型文法（上下文无关文法）
  - 3 型文法（正则文法）
  - 这 4 种文法统称为短语结构语法
局部句法分析
- 局部分析也叫浅层分析，仅获得局部成分的语法。
- 浅层句法分析可分为两个子任务
  - 识别和分析语块
  - 分析语块之间的依附关系

>3. 语义分析

对于不同的语言单位，语义分析有着不同的意义。

在词的层面上，语义分析指词义消歧；
在句的层面上指语义角色标注；
在篇章的层面上指共指消解[7]。

语义分析是目前 NLP研究的重点方向。

>4. 语用分析

语用分析主要是把文本中的描述和现实相对应，形成动态的表意结构。
语用分析有四大要素：发话者、受话者、话语内容和语境。

前两者指语言的发出者和接受者；
话语内容指发话者用语言符号表达的具体内容；
语境指言语行为发生时所处的环境，主要有上下文语境、现场语境、交际语境和背景知识语境。
语用分析还是不太理解用来干嘛的，分析对话文本吗

应用领域

> 信息检索（IR）

有两方面的任务[8]

存储海量信息
根据用户需求快速查找相关信息

> 文本分类

是根据一套分类规则对文本进行自动分类的过程

>情感分析

是一种通过判断文本情感极性去表征文档的技术

> 机器翻译

是通过计算机将一种语言翻译到其他语言

> 社会计算

是采用互联网、大数据和机器学习等技术来研究社会问题，并寻找出一种合适的方法去解决问题。

>1. 信息抽取

信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程，从自然语言构成的语料中提取出命名实体之间的关系，是一种基于命名实体识别更深层次的研究[9]
。
信息抽取的主要方法…
信息抽取的主要工作…

>2. 自动文摘

自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术，旨在实现两个目标

使语言的简短
保留重要信息[16]

自动文摘的分类…
自动文摘生成方法…

预测和展望

>难点

理解语言不能光靠逻辑，还要有强大的知识库，需要有这些支撑才能更好的处理数据并对文本进行进一步的理解和分析

>发展趋势

可能从人工构建知识到自动构建知识，人们可以利用一些显性知识构建一种方法，挖掘语言成分之间的关系，这样就避免了人工的繁琐和耗时
文本理解： 在文本的理解和推理层面可以由浅及深，完成对文本的深层次理解
- 哈尔滨工业大学刘挺教授在第三届中国人工智能大会上提到：可以使阅读理解作为一个深入探索自然语言理解的平台
- Google 已经推出了这样的测试机，也就是说让计算机理解一篇文章，接下来人类对计算机进行提问，观察计算机的回答能力完成测试。
未来自然语言处理的发展趋势是 NLP 许多领域的深度结合，从而为各相关行业创造价值。银行、电器和医学等领域对自然语言处理的需要都在日益提高， NLP+ 与各行业的结合越紧密，专业化的服务趋势就会越来越强

自然语言处理发展及应用

目录

自然语言处理发展及应用

Summary

概念

定义

流程

发展历史

研究方法

>自然语言处理流程(部分不太理解)

基础研究的四个层面

>1. 词法分析

>2. 句法分析

>3. 语义分析

>4. 语用分析

应用领域

> 信息检索（IR）

> 文本分类

>情感分析

> 机器翻译

> 社会计算

>1. 信息抽取

>2. 自动文摘

预测和展望

>难点

>发展趋势