一、概要
該paper發於ACL2016上,主要提出了一個基於多Attention機制CNN網絡的實體關係抽取方法,其中Attention機制主要是:Input Attention Mechanism和Convolutional Max-pooling Attention Mechanism。在不依賴於外部先驗知識和特徵的情況下,就已經能夠得到高於當前最好方法的結果。
二、模型方法
2.1 模型結構
2.2 Input Representation
對於一個句子S=(w1,w2,…,wn),以及其中的兩個實體e1(wp)和e2(wt),1<=p,t<=n,均將其轉爲詞向量;並且根據每個詞與實體的相對位置,也轉爲word position embeddings ,很明顯,每個詞與兩個實體有兩個相對位置,所以每個詞有兩個word position embeddings,所以,每個詞的Input Representation由三部分組成,如句子中第i個詞的Embedding可以表示爲
同時爲了充分得到上下文的信息,對於上面得到的使用滑窗的方法座位最終的Input Representation,即:
2.3 Input Attention Composition
根據2.2得到的word和entity Embedding,可以通過計算每個word與entity的內積以衡量它們的相近程度,即:
到這裏已經獲得詞與兩個實體的相關程度的量了,那麼這兩個量就可以作爲Input Attention了,具體怎麼使用呢?可以通過平均的方法,即:
2.4 Convolutional Max-Pooling with Attention
這時CNN就上場了,設卷積核
這時使用到Attention-Based Pooling了,通過:
其中U是一個在網絡中學習的權值矩陣,
那麼最終輸出爲:
2.5 代價函數
該論文提出使用
在相減前均使用L2正則化,該作者還出輸出與錯誤標籤對應的
其中
三、實驗和結果
實驗數據取自SemEval-2010 Task 8 dataset 。在Wikipedia上使用 word2vec skip-gram model訓練詞向量。作者在雙attention model Att-Pooling- CNN模型上取得F1值爲88%。
作者還分析了一些錯誤分類的實體關係,以及訓練時Att-Input-CNN and Att-Pooling-CNN的特性,如下圖:
四、結論與思考
作者認爲其提出的全新模型性能優於目前他人提出的模型或者利用先驗知識得到的結果,並且認爲此類模型在特定任務的的實體關係分類也能取到很好地效果。
五、個人思考:
①Input Representation部分k個相鄰的詞組成一個輸入,設計的Input Attention知識針對一個word,而不是相鄰的k個word;
②該模型在Max-Pooling with Attention的設計上沒有體現出其合理之處,文中缺少其解釋或者intuition,可能還有更好的設計方法;
參考文獻:
①Linlin Wang, Zhu Cao.Relation Classification via Multi-Level Attention CNNs.http://iiis.tsinghua.edu.cn/~weblt/papers/relation-classification.pdf
②代碼鏈接:https://github.com/FrankWork/acnn