Knowledge Base Question Answering via Encodin of Complex Query Graphs

Knowledge Base Question Answering via Encodin of Complex Query Graphs

ACL 2018 CompQ 42.84 WebQ 52.66

這篇論文好像有問題

在這裏插入圖片描述
常規操作:
What is the second longest river in United States

我們需要推理一些語意線索

  1. the answer is contained by United States;
  2. the answer is a river;
  3. the answer ranks second by its length in descending order.

多元預測需要符合答案的約束,我們稱這樣的問題爲“complex questions”

對於複雜的問題,對於問題的語意組成理解很重要,作爲一個KBQA結果的分類分支, semantic parsing (SP) 語意分析技術目的是學習能夠代表問題語意結構的語意解析樹或者查詢圖。最近,神經網絡模型對KBQA系統有很大的提升。SP+NN技術成爲KBQA數據集的最新技術。

通常SP-based方法首先是通過自底而上或者狀態查詢方法收集候選查詢圖,然後根據給定的問題根據語意相似度預測出最佳的查詢圖。
已存在的NN-based方法針對回答簡單問題,遵循 encode-and-compare框架。把問題和預測序列都壓縮成通用的向量空間,通過餘玄函數計算相似度。
爲了計算一個問題與一個複雜的查詢圖的相似度,一個直觀的解決方案是把查詢圖分割成多個語意部分,這樣原先的方法變成計算問題與查詢圖的每個部分的相似度。
但是,這樣操作面臨兩個缺陷。
1.每個語意部件沒有直接跟整個問題進行直接的比較,因爲它只符合問題的部分信息。
2.模型是分開壓縮各個部件,沒有學習到整個查詢圖的表示,因此不能從全局的角度看待語意部件。

給定一個問題產生的候選查詢圖,我們的模型把問題與預測學列壓縮進一個統一的向量空間。我們的方法與已存在的方法主要的區別是
我們集成語意部件的隱藏變量與部件間的交互信息作爲整個查詢圖的隱藏語意。
另外,爲了應對查詢圖的不同語意部件,我們利用依存分析信息作爲問題語意編碼信息的補充,這使得模型能夠更好地對齊每個句子組成部分。

論文主要貢獻:
1.我們提出了一個輕量有效的神經網絡模型去解決複雜的KBQA任務。據我們經驗所知,這是第一次嘗試去顯示的編碼複雜查詢圖的完整語意信息。
2.我們利用依存分析去豐富在神經網絡模型下的問題表達,進行徹底的調查以覈實其真實性有效性。
3.我們提出一個合計方法,豐富了一個實體鏈接工具。
4.在隊員QA數據集上做了綜合實驗,結果各種優秀…

在這裏插入圖片描述

方法:
1.我們根據狀態產生方法生成候選查詢圖。
2.我們通過深度神經網絡平常問題與查詢圖的語意相似度。
3.我們介紹了一種提高實體連接效果的集成方法。
4.我們討這個任務的預測與參數學習

查詢圖生成

利用隱藏的查詢的類型信息和知識庫當中時間間隔信息,產生一個有效的候選生成策略,在我們的任務當中,我們考慮4中語意約束。
entity,type,time and ordinal
步驟1.我們從問題中提取有效的(mention,focus node)對。Focus nodes是各種語意變量約束的起始點。
對於實體鏈接,我們通過SMART (Yang and Chang, 2015)工具生成(mention entity)對。
對於類型鏈接,我們粗魯的結合問題中包含uni-, bi- and tri-gram mentions,並且選取與詞向量相似度最高的前10個 (mention, type) pairs。 沒看懂
對於時間鏈接,我們通過符合year regex提取時間mention。
對於順序鏈接,我們利用預定義的最高級詞列表。並通過匹配最高級詞或“序數+最高級”模式來識別提及的內容。順序節點是表示序數的整數在mention中。
步驟2:主路徑生成
我們通過答案節點通過1-hop或者2-hop方式接連鏈接不同的focus entity。進一步的約束是否通過將錨節點x連接到通過謂詞序列使用未使用的焦點節點,錨節點x在哪裏是非焦點節點主路徑。
步驟3:添加實體約束
我們採用深度優先查詢策去查詢多元實體的組合,通過1-hop爲此約束主路徑。
步驟4:類型約束
類型約束只接收答案節點IsA謂語的約束,。。。。。沒看懂
步驟5:時間與順序約束

For the detail of time constraint, while existing approaches (Yih et al., 2015; Bao et al., 2016)
link the focus time with only single time predicate, our improvement is to leverage paired time
predicates for representing a more accurate time
constraint.
在這裏插入圖片描述

基於神經網絡的語意比較

我們首先替換查詢圖所有的實體或者時間mention爲。
爲了編碼複雜的查詢結構,我們把查詢圖分割成從答案節點到focus nodes的謂語序列,被稱爲semantic components。這些謂語序列不包含focus nodes的信息,除了type constaraints例外,where we append the
focus type to the IsA predicate, resulting in the
predicate sequence like {IsA, river}.

語意組件表達
爲了編碼語意組件,我們綜合考慮謂語的ids和謂語的names。
語意組件的names
每個word轉成word embedding
word sequence 爲序列當中的word embedding的平均值 得到 pw
語意組件的ids
通過矩陣轉成 pid
最終 p = pw + pid

問題表達
全局信息
問題當中每個word 轉 word embedding,通過bi-GRU
concatenation concatenation of the last forward and backward hidden states
拼接最後一層的 前向傳播與後向傳播的隱藏狀態,得到 qtok
局部級別編碼
我們利用依賴解析來表示表示答案和焦點之間的依賴關係。
答案節點在問題當中以 wh word表示
我們抽取問題當中從answer node 到focus mention的依賴關係。
Similar with Xu et al. (2016), we
treat the path as the concatenation of words and
dependency labels with directions.
通過另一個bi-GRU,得到qdep
最終 q = qtok + qdep

語意相似度計算

通過max pool得到最大的p和q
在這裏插入圖片描述

Entity Linking Enrichment

用到 S-MART 後續研究一下

訓練與預測

在這裏插入圖片描述

問題與後續

S-MART
時間序列約束(Yih et al., 2015; Bao et al., 2016)
局部約束Xu et al. (2016)
爲什麼會得到多個 q 向量,問題不是隻有一個,難道是局部壓縮有多個?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章