自然语言处理之文本标注问题

原創

2020-07-03 11:57

文本标注 (tagging) 是一个监督学习问题，可以认为标注问题是分类问题的一个推广，标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式，标注问题的输入是一个观测序列，输出是一个标记序列护着状态序列，标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测，注意的是可能的标记个数是有限的，但其组合所成的标记序列的个数是依序列长度呈指数级增长的。

标注问题氛围学习和标注两个过程(如上图所示)，首先给定一个训练数据集：

在这里xi为输入观测序列 (一维向量)，yi为相应的输出观测序列 (一维向量)，每个输入观测序列向量的长度为n，对不同样本具有不一样的值，学习系统基于训练数据集构建一个模型，表示为条件概率分布：

这里的每个xi(i=1,2,...,n)取值为所有可能的观测，每个Yi (i = 1,2..., n)取值为所有可能的标记，一般n远小于N，标注系统按照学习得到的条件概率分布模型，对新输入观测序列找到相应的输出标记序列。具体的对每一个观测序列，找到上式中概率最大的标记序列。

评价标注模型的指标与评价分类模型的指标一样，常用的有标注准确率，精确率和召回率。

标注问题常用的统计学方法有：详解隐马尔可夫模型(HMM)和自然语言模型之条件随机场理论(CRF)，这两个模型，之前的文章有介绍过。

标注问题在信息抽取，自然语言处理等领域被广泛应用，是这些领域的基本问题。例如，自然语言处理中的词性标注就是一个典型的标注问题：给定一个由单词组成的句子，对这个句子中的每一个单词进行词性标注，即对一个单词序列预测其对应的词性标记序列。

举一个信息抽取的例子，从英文文章中抽取基本名词短语，为此，要对文章进行标注。英文单词是一个观测，英文句子是一个观测序列，标记表示名词短语的"开始"、"结束"或“其它”。标记序列表示英文句子中基本名词短语的所在位置。信息抽取时，将标记“开始”到标记“结束”的单词作为名词短语。

标注模型的评价指标

标注问题常用的评价指标是精确率 (precision )，召回率 (recall) 和F1值，它和分类问题的评价指标相同，为了简便，这里使用分类来进行说，通常标注模型在测试数据集上的预测和或正确或不正确，4中情况出现的总数分别记作：

TP：将正确类预测为正类数

FP：将正类预测为负类数

FP：将负类预测为正类数

TN：将负类预测为负类数

那么精确率定义为：P = TP / (TP + FP)

召回率定义为: R = TP / (TP + FN)

F1值是根据精确率和召回率来进行计算的表达式为:

2/ F1 = 1/ P + 1/ R

即：F1 = 2TP /( 2TP + FP + FN)

一般精确率和召回率都高时，F1值也会很高。

参考学习资料：

[1] 统计学习方法：李航

文章来源于微信公众号：言处理技术，更多内容请访问该公众号。

欢迎关注公众号学习

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自然语言处理之文本标注问题

自然語言處理模型之GRU和LSTM網絡模型總結

用深度學習構造聊天機器人簡介

自然語言處理之維特比(Viterbi)算法

自然語言處理技術之準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介

爬蟲學習：scrapy相關的知識

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結