《Using Human Attention to Extract Keyphrase from Microblog Post》

这周读的是《Using Human Attention to Extract Keyphrase from Microblog Post》，发表在ACL2019上，作者是南京理工大学的zhang yingyi和zhang chengzhi，并且做了oral talk。作者的主要思路是在基于双向LSTM的基础上将人类的注意力机制加入到微博或者推特的关键词提取上来，取得了非常好的效果。

模型介绍

模型结构图如下：作者将模型抽象为一个seq2seq的模型，下图中x代表的是输入预料的每个词，对应位置的y代表x是否为关键词或者关键词的一部分。

使用的两层的双向LSTM作为嵌入层，对词向量进行学习；使用学到的词向量hi,w进行y的预测，损失函数如下，改进后的损失函数不仅包含了词的损失同样包含了注意力系数部分的损失，这样使得产生的注意力系数更接近视觉语料库中的注意力系数

实验过程及结果

本文共收集了两个数据集分别是日常生活和选举相关的，两个数据库分别包含16047和30264条推特，在获取ground truth时使用了两个#之间的数据。下图为数据集的基本情况，分别代表了标记的数据条数、目标句子的平均长度、词库大小、GECO数据集中词的比例：

眼部追踪数据库GECO主要记录了6个男性和7个女性母语为英语的阅读阿加莎的小说共5031个句子，包含了FFD、TRT等信息，将TRT数据除以参与者人数得到平均TRT。关于ATRT的处理如下：先进行对数变换，然后进行归一化使用的是BNC语料库中的词汇频率，然后缩放到0-1范围内。对于GECO中没有的词汇，我们归一化之后的ATRT分配给它。

实验主要对比了CRF、双向LSTM、注意力机制加强的双向LSTM、人类注意力加强的双向LSTM，其结果对比如下：取得了最优结果，评价结果包含精度、召回率、F1值

结果（使用人类注意力加强的无监督算法）

实验结果实例：抽取对应的关键词，可以看到基于人类注意力机制加强的双向LSTM正确提取到了对应的关键词。

使用人类注意力机制加强的TextRank算法对比如下：可以看出性能得到了极大提升。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《Using Human Attention to Extract Keyphrase from Microblog Post》

相关情况介绍

相关工作

模型介绍

实验过程及结果

结果（使用人类注意力加强的无监督算法）

《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》

pytorch中使用tensorboard

《Categorizing and Inferring the Relationship between the Text and Image of Twitter Posts》

《Searching for Effective Neural Extractive Summarization: What Works and What’s Next》

《Using Human Attention to Extract Keyphrase from Microblog Post》

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結