《Using Human Attention to Extract Keyphrase from Microblog Post》

這周讀的是《Using Human Attention to Extract Keyphrase from Microblog Post》,發表在ACL2019上,作者是南京理工大學的zhang yingyi和zhang chengzhi,並且做了oral talk。作者的主要思路是在基於雙向LSTM的基礎上將人類的注意力機制加入到微博或者推特的關鍵詞提取上來,取得了非常好的效果。

相關情況介紹

       關鍵詞包括一個或者更多的關鍵詞代表文本的主題,可以應用於文本摘要和信息檢索,使用人類的注意力輔助關鍵詞的抽取關鍵是如何將人類的注意力融入到模型中,爲此作者從人類的閱讀行爲入手,使用開源的視覺追蹤語料庫GECO得到文本中對應詞的先驗注意力係數,並作爲ground truth訓練網絡。並且作者也將其加入到了無監督學習中,經過對比使用注意力機制加強後的TextRank算法也得到加強。

相關工作

       從最開始的手工設計選擇特徵進行關鍵詞抽取的傳統機器學習方法,例如TF-IDF,需要大量的語料庫進行訓練。到現在的基於深度學習的關鍵詞抽取,但是會受到數據稀疏問題的困擾,現在研究人員寄希望於額外的知識能夠幫助提高模型的抽取能力。

       GECO數據集是2017年發佈的開源數據庫,主要記載了全部閱讀時間,使用此項數據代表人類的注意力分佈。


模型介紹

       模型結構圖如下:作者將模型抽象爲一個seq2seq的模型,下圖中x代表的是輸入預料的每個詞,對應位置的y代表x是否爲關鍵詞或者關鍵詞的一部分。

使用的兩層的雙向LSTM作爲嵌入層,對詞向量進行學習;使用學到的詞向量hi,w進行y的預測,損失函數如下,改進後的損失函數不僅包含了詞的損失同樣包含了注意力係數部分的損失,這樣使得產生的注意力係數更接近視覺語料庫中的注意力係數


實驗過程及結果

       本文共收集了兩個數據集分別是日常生活和選舉相關的,兩個數據庫分別包含16047和30264條推特,在獲取ground truth時使用了兩個#之間的數據。下圖爲數據集的基本情況,分別代表了標記的數據條數、目標句子的平均長度、詞庫大小、GECO數據集中詞的比例:

眼部追蹤數據庫GECO主要記錄了6個男性和7個女性母語爲英語的閱讀阿加莎的小說共5031個句子,包含了FFD、TRT等信息,將TRT數據除以參與者人數得到平均TRT。關於ATRT的處理如下:先進行對數變換,然後進行歸一化使用的是BNC語料庫中的詞彙頻率,然後縮放到0-1範圍內。對於GECO中沒有的詞彙,我們歸一化之後的ATRT分配給它。

 實驗主要對比了CRF、雙向LSTM、注意力機制加強的雙向LSTM、人類注意力加強的雙向LSTM,其結果對比如下:取得了最優結果,評價結果包含精度、召回率、F1值


結果(使用人類注意力加強的無監督算法)

 實驗結果實例:抽取對應的關鍵詞,可以看到基於人類注意力機制加強的雙向LSTM正確提取到了對應的關鍵詞。

使用人類注意力機制加強的TextRank算法對比如下:可以看出性能得到了極大提升。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章