文章目录
还需要查的关键词
文本生成,文本摘要,句子压缩与融合,文本复述,远程监督Distant Supervison,随机游走Random walk,马尔科夫逻辑Markov logic,Beam search,基于深层语法的文本生成,线图分析法(Chart Parsing)技术,基于同步文法的文本生成。
语法理论
语法分析
组合范畴语法(Combinatory Categorial Grammar;简称 CCG)
中心语驱动的短语结构语法(Head-driven Phrase-Structure Grammar;简称 HPSG)。
上下文无关文法(Context-Free Grammar;简称 CFG)
关键词提取
分类
- 有监督
关键词抽取算法看作是二分类问题。 - 半监督
只需要少量的训练数据,利用这些训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。 - 无监督
算法
基于统计学
- 词权重
基于词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词长等。 - 词的文档位置
这种特征量化方式是根据文章不同位置的句子对文档的重要性不同的假设来进行的。通常,文章的前N个词、后N个词、段首、段尾、标题、引言等位置的词具有代表性,这些词作为关键词可以表达整个的主题。 - 基于词的关联信息的特征量化
词的关联信息是指词与词、词与文档的关联程度信息,包括互信息、hits值、贡献度、依存度、TF-IDF值等。
基于词图模型
语言网络类型
- 共现网络图
- 语法网络图
- 语义网络图
- 其他网络图
节点的重要性计算方法
- 综合特征法
度,接近性,特征向量,集聚系数,平均最短路径。 - 系统科学法
- 随机游走法
PageRank,TextRank。
基于主题模型
步骤
- 获取候选关键词
从文章中获取候选关键词。即将文本分词,也可以再根据词性选取候选关键词。 - 语料学习
根据大规模预料学习得到主题模型。 - 计算文章主题分部
根据得到的隐含主题模型,计算文章的主题分布和候选关键词分布。 - 排序
计算文档和候选关键词的主题相似度并排序,选取前n个词作为关键词。
聚类
基于高维聚 类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚 类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。
- k-means
模型
- TextRank
- PageRank
- 主题模型:LSA,LSI,LDA
- TPR
- TF-IDF
- TF-IWF
- PCA
- 卡方检验
- RAKE(Rapid Automatic Keyword Extraction)
代码 论文 Automatic Keyword Extraction from Individual Documents 作者Alyona Medelyan - Maui
- Topica
参考文献
- 几种关键词提取算法对比
- 关键字抽取博士论文(刘知远)
- 专栏 | 如何做好文本关键词提取?从三种算法说起 机器之心
- NLP keyword extraction tutorial with RAKE and Maui
- Keyword Extraction for Understanding(介绍了Chi-Square、Keygraph、TF-IDF 三种方法)
- Efficient unsupervised keywords extraction using graphs
- GitHub上有关keyword-extraction的代码
- 代码 Automated Keyword Extraction from Articles using NLP
- 提取关键词的实用工具(效果不好)
- 实用工具 rake-nltk 1.0.4接口
文本生成-文本摘要
分类
-
单文档摘要 & 多文档摘要
-
抽取式 & 生成式
抽取式:
- Lead-3
- TextRank
- 聚类
- 序列标注方式
序列标注结合Seq2Seq - Seq2Seq方式
- 句子排序方式
结合打分
生成式
- Seq2Seq
增加了 Copy 和 Coverage 机制。 - 利用外部信息
- 多任务学习
- 生成对抗方式
生成抽取式
- pointer-generator 网络。
-
有监督 & 无监督
算法
- 基于统计学
- 基于外部语义资源
词汇链。
wordnet(面向语义的英文词典)、词性标注工具等。 - 图排序
Text rank排序算法。
LexRank:无监督图形方法。
PageRank。
HITS。 - 统计机器学习
朴素贝叶斯算法、隐马尔可夫算法、决策树算法等。
特征:主题词特征、大写词特征、线索短语特征、句子长度特征、段落特征,词频、线索词、句子位置、TF-IDF 值、标题词长,平均句子长度,平均词汇连接度,是否包含数词、时间等信息,是否包含代词、形词等词汇,是否包含命名实体。 - 深度学习
Seq2Seq模型。
TensorFlow的一个自动摘要模块 Textsum。
评价方法
ROUGE
文本摘要参考文献
- awesome-text-summarization(文本摘要相关的数据集、软件、论文的汇总)
- 非监督文本摘要(简介文本摘要,并介绍了一个非监督文本摘要模型)
- 基于句嵌入进行无监督文本总结的经验(和上一个参考资料介绍了相同的论文)
- 前两个参考文献介绍的论文用到的代码:
- 文本摘要简述
- 论文阅读:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings(介绍得太简略,另外这个论文有相应代码)
- 文本摘要的系统性学习(1)(对文本摘要的概括性介绍,内容比较全)
- 人去做文本摘要都挺困难了,机器要怎么做?(seq2seq+注意力,介绍了文本摘要的一些模型)
阅读理解
参考资料:
文本分类
模型
工具
问答系统
方法
语义解析(Semantic Parsing)
语义表示(表示成逻辑形式) + 推理查询(需要用到查询知识库的逻辑语言)。
语法解析的过程可以看作是自底向上构造语法树的过程,树的根节点,就是该自然语言问题最终的逻辑形式表达。整个流程可以分为两个步骤:
- 词汇映射:即构造底层的语法树节点。将单个自然语言短语或单词映射到知识库实体或知识库实体关系所对应的逻辑形式。我们可以通过构造一个词汇表(Lexicon)来完成这样的映射。
- 构建(Composition):即自底向上对树的节点进行两两合并,最后生成根节点,完成语法树的构建。
具体方法:组合范畴语法(Combinatory Categorical Grammars,CCG),暴力方法(对两个节点都可以执行Join、Intersection、Aggregate等操作。
信息抽取(Information Extraction)
从句子得到实体(NER,依存树,词性标注)(问题词,问题焦点,主题词,中心动词) =》知识库子图 =》节点或边作为候选答案 =》按规则或模板进行匹配(信息抽取)=》得到表征问题或答案的特征向量=》分类器(SVM,感知机,逻辑回归……)得到答案。
向量建模(Vector Modeling)
基于深度学习的方法。通过深度学习对传统的方法进行提升。
参考
- 揭开知识库问答KB-QA的面纱0·导读篇
- 揭开知识库问答KB-QA的面纱1·简介篇
- 揭开知识库问答KB-QA的面纱2·语义解析篇
- 揭开知识库问答KB-QA的面纱3·信息抽取篇
- 揭开知识库问答KB-QA的面纱4·向量建模篇
- 揭开知识库问答KB-QA的面纱5·深度学习上篇
- 揭开知识库问答KB-QA的面纱6·深度学习中篇
- 揭开知识库问答KB-QA的面纱7·深度学习下篇(二)
- 揭开知识库问答KB-QA的面纱8·非结构化知识篇
- 揭开知识库问答KB-QA的面纱9·动态模型篇
- 基于知识图谱的问答系统入门之—NLPCC2016KBQA数据集
- KBQA: 基于开放域知识库上的QA系统
论文参考
语义解析:
- Berant J, Chou A, Frostig R, et al. Semantic Parsing on Freebase from Question-Answer Pairs[C]//EMNLP. 2013, 2(5): 6.
- Cai Q, Yates A. Large-scale Semantic Parsing via Schema Matching and Lexicon Extension[C]//ACL (1). 2013: 423-433.
- Kwiatkowski T, Choi E, Artzi Y, et al. Scaling semantic parsers with on-the-fly ontology matching[C]//In Proceedings of EMNLP. Percy. 2013.
- Fader A, Zettlemoyer L, Etzioni O. Open question answering over curated and extracted knowledge bases[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014: 1156-1165.
- Yih S W, Chang M W, He X, et al. Semantic parsing via staged query graph generation: Question answering with knowledge base[J]. 2015. (注 该paper来自微软,是ACL 2015年的Outstanding paper,也是目前KB-QA效果最好的paper之一)
信息抽取:
- Yao X, Van Durme B. Information Extraction over Structured Data: Question Answering with Freebase[C]//ACL (1). 2014: 956-966.
向量建模方法:
- Bordes A, Chopra S, Weston J. Question answering with subgraph embeddings[J]. arXiv preprint arXiv:1406.3676, 2014.
- Yang M C, Duan N, Zhou M, et al. *Joint Relational Embeddings for Knowledge-based Question Answering[*C]//EMNLP. 2014, 14: 645-650.
- Bordes A, Weston J, Usunier N. Open question answering with weakly supervised embedding models[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer Berlin Heidelberg, 2014: 165-180.
- Dong L, Wei F, Zhou M, et al. Question Answering over Freebase with Multi-Column Convolutional Neural Networks[C]//ACL (1). 2015: 260-269.
使用LSTM、CNNs进行实体关系分类:
- Xu Y, Mou L, Li G, et al. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths[C]//EMNLP. 2015: 1785-1794.
- Zeng D, Liu K, Lai S, et al. Relation Classification via Convolutional Deep Neural Network[C]//COLING. 2014: 2335-2344.(Best paper)
- Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]//EMNLP. 2015: 1753-1762.
使用记忆网络(Memory Networks),注意力机制(Attention Mechanism)进行KB-QA:
- Bordes A, Usunier N, Chopra S, et al. Large-scale simple question answering with memory networks[J]. arXiv preprint arXiv:1506.02075, 2015.
- Zhang Y, Liu K, He S, et al. Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information[J]. arXiv preprint arXiv:1606.00979, 2016.
命名实体识别NER
方法
NER模型发展历史:MLP->LSTM->LSTM/CNN+CRF->BiLSTM+CRF- >BiLSTM+CNN+CRF