論文名稱:OpenTag: Open Attribute Value Extraction from Product Profiles
論文出處:KDD 2018
論文地址:https://arxiv.org/pdf/1806.01264.pdf
論文要點
- 文章基於產品說明書數據。
- 將屬性值抽取轉化爲序列標註問題處理。
- 基本模型: bi-lstm + attention + CRF
- 採用主動學習方法
數據示例
標題中包含兩種待提取的屬性值: 規格 和 口味 。
模型pipeline
兩個難題
文章中提出此類任務中的兩個難題
- 如何從非結構化文本中提取感興趣的屬性值? 尤其是當要提取的屬性值在之前的數據中未曾出現過,如何處理?
- 能否通過有限的標註數據建立模型?能否提高模型的可解釋性?
任務轉化
We formulate our problem as a sequence tagging task similar to named entity recognition (NER).
將屬性抽取轉化爲類似命名實體識別的序列化標註問題來處理。
數據形式定義
概括來說就是從非結構化文本中提取我們所關心屬性的對應屬性值。一個屬性可能對應多個屬性值,如口味屬性可能具有多種不同屬性值。
本文采取的序列標註方式爲{B,I,O,E}
模型結構
模型結構以目前的角度看已經屬於比較經典的模型,這裏不再贅述。主要就是在經典的bi-lstm+CRF模型中添加了attention層。
attention層實現方式如下:
ACTIVE LEARNING
本文提出的主動學習策略:
主動學習的主要思路是根據少量的有標籤樣本訓練初始模型,對未知樣本進行預測,然後設定詢問策略,將符合標準的樣本進行標註,加入有標籤訓練集,如此循環,直到達到設定的停止標準。
本文主動學習關鍵點在於詢問策略制定,採用了標籤翻轉(tag flips)作爲評判指標,
通俗講就是,選擇一組序列中,在多個epoch內,模型預測標籤變化次數最多的序列,進行人工標註。
實驗與結果
此部分不再詳細記錄了,可以直接查看論文。