自然语言处理之文本标注问题

文本标注 (tagging) 是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式,标注问题的输入是一个观测序列,输出是一个标记序列护着状态序列,标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测,注意的是可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的。



标注问题氛围学习和标注两个过程(如上图所示),首先给定一个训练数据集:


在这里xi为输入观测序列 (一维向量),yi为相应的输出观测序列 (一维向量),每个输入观测序列向量的长度为n,对不同样本具有不一样的值,学习系统基于训练数据集构建一个模型,表示为条件概率分布:


这里的每个xi(i=1,2,...,n)取值为所有可能的观测,每个Yi (i = 1,2..., n)取值为所有可能的标记,一般n远小于N,标注系统按照学习得到的条件概率分布模型,对新输入观测序列找到相应的输出标记序列。具体的对每一个观测序列,找到上式中概率最大的标记序列。


评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率,精确率和召回率。


标注问题常用的统计学方法有:详解隐马尔可夫模型(HMM)自然语言模型之条件随机场理论(CRF),这两个模型,之前的文章有介绍过。


标注问题在信息抽取,自然语言处理等领域被广泛应用,是这些领域的基本问题。例如,自然语言处理中的词性标注就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。


举一个信息抽取的例子,从英文文章中抽取基本名词短语,为此,要对文章进行标注。英文单词是一个观测,英文句子是一个观测序列,标记表示名词短语的"开始"、"结束"或“其它”。标记序列表示英文句子中基本名词短语的所在位置。信息抽取时,将标记“开始”到标记“结束”的单词作为名词短语。


标注模型的评价指标

标注问题常用的评价指标是精确率 (precision ),召回率 (recall) 和F1值,它和分类问题的评价指标相同,为了简便,这里使用分类来进行说,通常标注模型在测试数据集上的预测和或正确或不正确,4中情况出现的总数分别记作:

TP:将正确类预测为正类数

FP:将正类预测为负类数

FP:将负类预测为正类数

TN:将负类预测为负类数

那么精确率定义为:P = TP / (TP + FP)

召回率定义为: R = TP / (TP + FN)

F1值是根据精确率和召回率来进行计算的表达式为:

2/ F1 = 1/ P + 1/ R

即:F1 = 2TP /( 2TP + FP + FN)

一般精确率和召回率都高时,F1值也会很高。


参考学习资料:

[1] 统计学习方法: 李航


文章来源于微信公众号:言处理技术,更多内容请访问该公众号。


欢迎关注公众号学习

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章