摘要:在信息結構化提取領域,前人一般需要基於人工標註的模板來完成信息結構化提取。論文提出一種zero-shot的基於圖卷積網絡的解決方案,可以解決訓練集和測試集來自不同垂直領域的問題。
本文分享自華爲雲社區《論文解讀系列十六:Zero-Shot場景下的信息結構化提取》,作者:一笑傾城。
摘要
在信息結構化提取領域,前人一般需要基於人工標註的模板來完成信息結構化提取。論文提出一種zero-shot的基於圖卷積網絡的解決方案,可以解決訓練集和測試集來自不同垂直領域的問題。
Figure 1. 訓練和推理數據來源的垂直領域不一樣。
問題定義
Figure 2. OpenIE和ClosedIE的直觀理解。
Relatin Extraction
- Close Relation Extraction (ClasedIE)
RR表示類別集合,包含無類別,模型直接爲每個實體分配類別即可。 - Open Relation Extraction(OpenIE)
RR表示類別集合,模型作兩類分類,判斷一個實體是否是另一個實體的key。
Zero-Shot Extraction
Zero-Shot按難度分可以區分如下:
- Unseen-Website Zero-shot Extraction
即同一垂直領域的不同版式,比如,都是來自電影的網頁。只是推理測試的時候使用的網頁排版與訓練不一樣。 - Unseen-Websiste Zero-shot Extraction
即不同垂直領域的不同版式,比如,訓練是來自電影的網頁,而推理測試的時候使用的可能是招聘類網站的網頁。
論文提出的解決方案其實是發掘出圖網絡中全部的key-value對,由於發掘key-value這個任務本身是版式不依賴的,從而起到了跨領域的版式結構解析。
概念
- relation: 指key
- object:指value
- relationship: 指key -> value
編碼器(特徵構建)
節點信息的構建由圖GG來完成,包括一系列的節點NN(實體),和節點之間的邊E(Edges)。
基於設計的規則來構建實體之間的關係
以下情況下,會構建節點之間的邊(key-value對經常是上下關係或左右關係):
- 水平情況:水平鄰居,而且中間沒有其它節點;
- 垂直情況:垂直鄰居,而且中間沒有其它節點;
- 同級情況:同級節點;
使用圖網絡來實體之間的關係進進建模
基於Graph Attention Network (GAT)來對節點關係進行建模,節點初始(輸入)特徵:
- 視覺特徵:網頁中對節點的視覺類描述;
- 文本特徵:OpenIE是對預訓練Bert進行特徵平均,CloseIE則是統計該節點字符串出現的頻率(似乎對跨領域更友好);
預訓練機制
論文設計了輔助的損失函數L_{pre}Lpre進行三類分類的監督:{key, value, other}。同時爲了防止訓練過程過擬合,預訓練完成後,OpenIE任務中的圖網絡權重不會更新。
關係預測網絡
OpenIE
判斷一對節點是否滿足第一個節點字符串內容是第二個節點字符串內容的key:
- 使用the candidate pair identification algorithm來獲取潛在的字符串對;
- 兩個節點的原始輸入特徵+GNN輸出特徵+兩個節點的關係特徵作爲分類器輸入;
- 全連接網絡進行分類;
ClosedIE
交叉熵多類分類
實驗
- 確實是跨領域任務更加困難。
- CloseIE:確實是網址越多,效果越好。
- 確認各個因素對網絡模型效果的影響。