《Using Human Attention to Extract Keyphrase from Microblog Post》

这周读的是《Using Human Attention to Extract Keyphrase from Microblog Post》,发表在ACL2019上,作者是南京理工大学的zhang yingyi和zhang chengzhi,并且做了oral talk。作者的主要思路是在基于双向LSTM的基础上将人类的注意力机制加入到微博或者推特的关键词提取上来,取得了非常好的效果。

相关情况介绍

       关键词包括一个或者更多的关键词代表文本的主题,可以应用于文本摘要和信息检索,使用人类的注意力辅助关键词的抽取关键是如何将人类的注意力融入到模型中,为此作者从人类的阅读行为入手,使用开源的视觉追踪语料库GECO得到文本中对应词的先验注意力系数,并作为ground truth训练网络。并且作者也将其加入到了无监督学习中,经过对比使用注意力机制加强后的TextRank算法也得到加强。

相关工作

       从最开始的手工设计选择特征进行关键词抽取的传统机器学习方法,例如TF-IDF,需要大量的语料库进行训练。到现在的基于深度学习的关键词抽取,但是会受到数据稀疏问题的困扰,现在研究人员寄希望于额外的知识能够帮助提高模型的抽取能力。

       GECO数据集是2017年发布的开源数据库,主要记载了全部阅读时间,使用此项数据代表人类的注意力分布。


模型介绍

       模型结构图如下:作者将模型抽象为一个seq2seq的模型,下图中x代表的是输入预料的每个词,对应位置的y代表x是否为关键词或者关键词的一部分。

使用的两层的双向LSTM作为嵌入层,对词向量进行学习;使用学到的词向量hi,w进行y的预测,损失函数如下,改进后的损失函数不仅包含了词的损失同样包含了注意力系数部分的损失,这样使得产生的注意力系数更接近视觉语料库中的注意力系数


实验过程及结果

       本文共收集了两个数据集分别是日常生活和选举相关的,两个数据库分别包含16047和30264条推特,在获取ground truth时使用了两个#之间的数据。下图为数据集的基本情况,分别代表了标记的数据条数、目标句子的平均长度、词库大小、GECO数据集中词的比例:

眼部追踪数据库GECO主要记录了6个男性和7个女性母语为英语的阅读阿加莎的小说共5031个句子,包含了FFD、TRT等信息,将TRT数据除以参与者人数得到平均TRT。关于ATRT的处理如下:先进行对数变换,然后进行归一化使用的是BNC语料库中的词汇频率,然后缩放到0-1范围内。对于GECO中没有的词汇,我们归一化之后的ATRT分配给它。

 实验主要对比了CRF、双向LSTM、注意力机制加强的双向LSTM、人类注意力加强的双向LSTM,其结果对比如下:取得了最优结果,评价结果包含精度、召回率、F1值


结果(使用人类注意力加强的无监督算法)

 实验结果实例:抽取对应的关键词,可以看到基于人类注意力机制加强的双向LSTM正确提取到了对应的关键词。

使用人类注意力机制加强的TextRank算法对比如下:可以看出性能得到了极大提升。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章