《Using Human Attention to Extract Keyphrase from Microblog Post》

這周讀的是《Using Human Attention to Extract Keyphrase from Microblog Post》，發表在ACL2019上，作者是南京理工大學的zhang yingyi和zhang chengzhi，並且做了oral talk。作者的主要思路是在基於雙向LSTM的基礎上將人類的注意力機制加入到微博或者推特的關鍵詞提取上來，取得了非常好的效果。

模型介紹

模型結構圖如下：作者將模型抽象爲一個seq2seq的模型，下圖中x代表的是輸入預料的每個詞，對應位置的y代表x是否爲關鍵詞或者關鍵詞的一部分。

使用的兩層的雙向LSTM作爲嵌入層，對詞向量進行學習；使用學到的詞向量hi,w進行y的預測，損失函數如下，改進後的損失函數不僅包含了詞的損失同樣包含了注意力係數部分的損失，這樣使得產生的注意力係數更接近視覺語料庫中的注意力係數

實驗過程及結果

本文共收集了兩個數據集分別是日常生活和選舉相關的，兩個數據庫分別包含16047和30264條推特，在獲取ground truth時使用了兩個#之間的數據。下圖爲數據集的基本情況，分別代表了標記的數據條數、目標句子的平均長度、詞庫大小、GECO數據集中詞的比例：

眼部追蹤數據庫GECO主要記錄了6個男性和7個女性母語爲英語的閱讀阿加莎的小說共5031個句子，包含了FFD、TRT等信息，將TRT數據除以參與者人數得到平均TRT。關於ATRT的處理如下：先進行對數變換，然後進行歸一化使用的是BNC語料庫中的詞彙頻率，然後縮放到0-1範圍內。對於GECO中沒有的詞彙，我們歸一化之後的ATRT分配給它。

實驗主要對比了CRF、雙向LSTM、注意力機制加強的雙向LSTM、人類注意力加強的雙向LSTM，其結果對比如下：取得了最優結果，評價結果包含精度、召回率、F1值

結果（使用人類注意力加強的無監督算法）

實驗結果實例：抽取對應的關鍵詞，可以看到基於人類注意力機制加強的雙向LSTM正確提取到了對應的關鍵詞。

使用人類注意力機制加強的TextRank算法對比如下：可以看出性能得到了極大提升。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《Using Human Attention to Extract Keyphrase from Microblog Post》

相關情況介紹

相關工作

模型介紹

實驗過程及結果

結果（使用人類注意力加強的無監督算法）

《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》

pytorch中使用tensorboard

《Categorizing and Inferring the Relationship between the Text and Image of Twitter Posts》

《Searching for Effective Neural Extractive Summarization: What Works and What’s Next》

《Using Human Attention to Extract Keyphrase from Microblog Post》

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結