關於《Integrating Deep Learning with Logic Fusion for Information Extraction》中規則與神經網絡結合的理解

 

閱讀感想:本篇文章主要是根據在信息抽取中實體識別和關係抽取任務之間存在一定的關聯性,而這種關聯性可以體現爲邏輯約束的形式。故作者提出了提出了基於描述邏輯的實體識別和關係抽取模型,也是少有的融合符號主義和聯結主義的工作。

問題背景:現有的基於pipe-line框架進行信息抽取工作的模型容易產生傳播誤差,而使用聯合訓練的深度模型框架卻很難強制實體識別和關係抽取任務的一致性。針對上述問題,作者提出將邏輯規則和深度學習融合到一個端到端的框架中,使用概率的方式來計算邏輯規則,並定義映射函數來將DNN中的輸出映射到邏輯單元。

方法概述:整個模型由3部分組成——DNN、Logic bank、discrepancy unit,DNN根據輸入給出每個單詞的預測標籤以及可能的關係預測,logic back將領域知識轉化爲一階邏輯,並未每個規則賦值置信度權重表明重要程度,將DNN的輸出放入logic unit中轉化爲logic輸出(Deep Logic,  神經網絡的輸出跟規則的滿足度),而discrepancy unit負責將logic unit的輸出Logic output和神經網絡輸出Neural output對齊。如下圖所示:

一階邏輯:作者將規則rule使用一階邏輯的形式表示,比如像這樣的形式,另外,作者在文中引入了兩個概念,一個是Herbrand interpretation,可以理解爲給每個形式化規則賦值的過程。另外還有immediate consequence operator,可以理解爲規則的另一種隱射。

深度神經網絡模塊:這個模塊,作者的輸入是一個句子,embedding是每個word的預訓練的詞向量和詞性的拼接,經過隱藏層後又加入了多頭自注意力機制模塊,每一個頭負責計算兩兩單詞間的關係(是否在這裏可以認爲c = 2^n,n是輸入句子的單詞個數)。輸出是每個word對應的BIO標籤和兩兩word存在的關係類別。

邏輯融合:這部分是本篇論文的重點,也是我們着重討論的地方。首先,作者先引入了一個映射函數\u,定義了一系列的關於命題連接符的映射規則,目的在於將一階邏輯映射到一個連續的空間。在本文中的具體作用就是通過計算對於於規則rule中body的神經網絡輸出,來得到關於rule中body對應的Head的中間值(也是對應上面immediate consequence operator的概念)。具體舉例如下:

接着作者給出怎麼將神經網絡的輸出怎麼跟logic bank中的規則計算滿足度,具體見算法Deep Logic

首先是輸入每條句子在神經網絡裏關於實體和關係的預測值,接着針對rule set的每一條rule,通過映射\u得到相關實際實例中body的推導結果,結果包括對應到實例的Head和logic value(該條句子預測結果對於每一條規則的滿足值),後面的循環是對應到每條規則每個實體或者關係的算數平均滿足值\uiu^E_{i,k}u^R_{i,k}。衡量差異函數計算的是針對到每條規則的帶權神經網絡輸出分佈和滿足度分佈間的差異。當然,最終的損失函數作者還加上了深度模型本身的交叉熵損失函數。最後給出與teacher-student網絡關於邏輯規則融合神經網絡的比較。

不同點:

在teacher-student網絡中,該作者專門來得到一個與student分佈接近但又儘量滿足規則的新的分佈——teacher Network。而在本篇文章中,作者直接在原有神經網絡的輸出中加入規則的影響得到一個關於規則的滿足程度的分佈,並且與原有的神經網絡輸出來進行差異度計算從而更新原有網絡,而對於teacher-student來說就是在每次迭代過程中通過teacher輸出、student輸出和真實標籤分佈差異計算來更新student網絡。不是同一任務,無法說孰優孰劣,都很巧妙都很難。最後給出兩篇文章中關於滿足度的體現,前一個是本篇文章是關於第K條規則滿足度分佈的形式,teacher-student網絡中是以鬆弛度因子的形式。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章