知識圖譜問答 | (3) 關係分類概述

本篇博客主要基於微軟亞洲研究院段楠老師的《智能問答》第三章 關係分類 進行整理。

1. 簡介

給定一段自然語言文本以及該文本中出現的若干實體(e1,...,en)(e_1,...,e_n), 關係分類(relation classification)任務的目的是識別這些實體(e1,...,en)(e_1,...,e_n)之間滿足的語義關係(關係分類也叫 關係抽取、關係識別等)。由於全部可能的關係集合通常是預先指定好的(例如知識圖譜中的全部謂詞(邊上的標註/關係)),因此該任務可以採用分類方法完成。最基本的關係分類任務是判斷文本中同時出現的兩個實體e1,e2e_1,e_2間的關係。

1998年,MUC首次提出關係分類評測。該任務針對文本中出現的人名、機構名、產品名和地點名等實體,預測兩兩實體之間可能出現的三種關係:①機構名和地點名之間的Location_Of關係;②人名和機構名之間的 Employee_of關係;③產品名和機構名之間的Product_Of關係。

1999年,ACE爲關係分類評測提供了更大規則的數據集,並支持不同語種的任務。2008年,ACE英文關係分類評測涉及了7個大類18個小類的關係集合,該任務極大地推動了實體分類研究的發展。

2009年,TAC的KBP任務基於無結構文本抽取知識,並將其用於知識圖譜的構建和擴展,實體鏈接和關係分類是該任務中最重要的兩個子任務。

SemEval 也提供關係分類評測任務。該會議在2010年發佈了基於19種關係的關係分類評測數據集,將實體關係分類任務推向了一個新的高度。

2012年,Google 對外發布了基於知識圖譜(freebase)的語義搜索和智能問答服務,並開放了該知識圖譜供工業界和學術界使用。大規模知識圖譜的出現極大地推動了智能問答研究的發展。基於此類知識圖譜,斯坦福、Facebook 和微軟等研究機構分別構建並開放了基於知識圖譜的智能問答評測數據集,包括WebQuestions、SimpleQuestions、NLPCC-KBQA等,這些數據集涉及的問答任務需要問答系統能夠針對輸人問題進行準確的關係分類。由於知識圖譜中包含的關係(即謂詞)數目遠超上述關係分類任務涉及的關係數目,因此近年來出現了很多新型的關係分類方法。主要包括模板匹配方法、監督學習方法和半監督學習方法

2. 模版匹配方法

模板匹配方法是關係分類任務中最常見的方法。該類方法使用一個模板庫對輸入文本中兩個給定實體進行上下文匹配,如果該上下文片段與模板庫中某個模板匹配成功,那麼可以將該匹配模板對應的關係作爲這兩個實體之間滿足的關係。

本小節將介紹兩種模板匹配方法:第一種方法是基於人工模板完成關係分類任務,第二種方法是基於統計模板完成關係分類任務。

基於人工模板的關係分類主要用於判斷實體間是否存在上下位關係(Hyponymy).

Hearst 1992年提出Hearst Pattern 方法[1],用於判斷文本中出現的兩個實體之間是否滿足上下位關係。下表給出 Hearst Pattern 包括的正則表達式模板。其中,每個NPi(i1)NP_i(i\geq 1)NP0NP_0之間都滿足上下位關係。

在這裏插入圖片描述
在這裏插入圖片描述
上下位關係分類的主要目的是抽取滿足上下位關係的實體對,這些實體對能夠幫助問答系統對答案類型進行正確的判斷。例如,對於which city does Bill Gates come from這個問題,如果答案候選包括 Redmond 和 United States這兩個實體,那麼基於這兩個實體對應的上位詞就可以將答案候選 Unitied States 過濾掉,因爲該問題尋找的答案類型(即上位詞)需要是一個 city,而 Unitied States 對應的上位詞是 counry.

Hearst Pattern基於詞彙和句法信息制定嚴格的人工模板,該方法能夠很好地從文本中抽取出滿足上下位關係的實體對。但由於模板數目有限,該方法同樣無法覆蓋該關係可能對應的全部情況。例如,對於 animals other than dogs such as cats 就無法基於上述人工模板判斷animal和dog/cat 之間存在的上下位關係,這是因爲該文本無法匹配任何模板。

上下位關係的自然語言表達方式相對有限,採用人工模板(hearst pattern)就可以很好地完成分類任務。但對其他類型的關係而言,由於其對應的自然語言表達方式非常多,因此無法採用上述方式進行處理,這就引出基於統計模板的關係分類方法。

基於人工模板的關係分類在給定關係列表的基礎上,從大規模數據中自動抽取和總結模板,並將抽取出來的高質量模板用於關係分類任務。該過程無需過多人工干預。

Ravichandran 等人提出基於搜索引擎的統計模板抽取方法,抽取結果可以用於關係分類和答案抽取任務[2]. 首先,該方法從待分類的全部關係集合中選擇一個關係,例如 Birthday,並找到滿足該關係的一個實體對,例如 Mozart(對應問題實體)和1756(對應答案實體)。然後,將該實體對作爲查詢語句,例如 Mozart+1756,提交到搜索引擎,並抓取搜索引擎返回的前n個結果文檔。接下來,保留返回結果文檔中同時包含該實體對的句子集合,例如(a)The great composer Mozart(1756-1791)achieved fame at a young age、(b)Mozart(1756-91)was a genius和(c)The whole world would always be indebted to the great music of Mozart(1756-1791)
,並對每個句子進行分詞。最後,從保留句子集合中尋找包含上述實體對的最長子串,例如 Mozart(1756-,並將實體替換爲非終結符得到一個模板,例如(-。同一個關係使用不同實體對能夠抽取得到不同模板。例如,關係 Birthday 抽取的模板候選包括:(a)(-、(b)born in ,和(c)was born on 等。

給定一個關係,該工作採用如下方式計算每個模板候選對應的置信度。首先,選擇滿足當前關係的一個實體對(例如 Mozart 和 1756),將該實體對中的問題實體(例如 Mozart)單獨作爲查詢語句提交給搜索引擎,並保留返回結果文檔中包含該問題實體的全部句子。然後,計算給定模板 patternipattern_i在該句子集合上的對應得分P(patterni)P(pattern_i):
在這裏插入圖片描述
上式中,CaC_a表示該集合中成功匹配模版patternipattern_i、並且對應部分正好是答案實體的句子數目,CoC_o表示該集合中成功匹配patternipattern_i的句子數目。注意,在CoC_o的計數過程中可以對應任意單詞或短語,而不限於答案實體。按照P(·)可以對同一關係的不同模板候選進行得分,並保留置信度較高的模板用於關係分類任務。

在實際使用中,如果輸入文本中某兩個實體所在的上下文恰好能夠匹配某個模板,那麼該匹配模板對應的關係就可以作爲對這兩個實體之間關係的預測結果。

3. 監督學習方法

監督學習(supervised learning)方法使用帶有關係標註的數據訓練分析分類模型。本節把該類方法分爲三類進行介紹:基於特徵的方法、基於核函數的方法和基於深度學習的方法

3.1 基於特徵的方法

給定兩個實體,基於特徵的關係分類方法從該實體對所在上下文中抽取特徵,並基於這些特徵完成關係分類任務。

在特徵方面,該類工作常用的關係分類特徵包括:①詞彙特徵,表示兩個實體名字中包含的單詞;②詞彙特徵,表示文本中兩個實體之間出現的單詞;③數值特徵,表示文本中兩個實體之間出現的單詞的數目;④數值特徵,表示文本中兩個實體之間出現的其他實體的數目;⑤類型特徵,表示兩個實體對應的類型(例如 Person,Location 和 Organization 等);⑥指示特徵,表示兩個實體是否出現在同一個名詞短語、動詞短語或介詞短語中;⑦依存特徵,表示在句法依存樹中兩個實體所依附的單詞和該單詞對應的詞性標註。

在模型方面,Kambhatla基於最大熵(maximum entropy)訓練關係分類模型[3],Zhou等人基於支持向量機 (support vector machine)訓練關係分類模型[4]。

3.2 基於核函數的方法

基於特徵的方法從兩個實體所在上下文中抽取不同特徵,用於關係分類任務。由於文本中包含多種不同類型的信息(例如詞彙、詞性標註、依存關係等),因此整個特徵空間包含的特徵數量非常大,很難選擇合理的特徵子集用於分類任務。針對該問題,研究者提出基於核函數(kernel function)的關係分類方法。

給定一個對象空間X,核函數K:X×X[0,)X\times X \rightarrow [0,\infty)表示一個二元函數,該函數可以將X中任意兩個對象x,yXx,y\in X作爲輸入,並返回二者之間的相似度得分K(x,y)。核函數的定義可以採用很多種不同的形式。如果爲每個對象定義一個特徵向量Φ(·),那麼兩個對象x和y對應特徵向量的點積K(x,y)=ϕ(x)Tϕ(y)K(x,y) = \phi(x)^T \cdot \phi(y)可以作爲核函數的一種實現形式。

對應到關係分類任務,給定輸入文本T中兩個實體e1,e2e_1,e_2核函數方法採用下述方式計算這兩個實體間滿足關係r的置信度。首先,從標註數據中找到文本T’,保證T’包含實體對e1,e2e_1',e_2'並且e1,e2e_1',e_2'之間滿足關係r. 然後,基於核函數計算T和T’之間的相似度K(T,T’),作爲e1,e2e_1,e_2之間滿足關係r的置信度。該做法背後體現的思想是:如果兩個實體對同時滿足某個關係r,這兩個實體對分別所在的上下文也應該相似,該相似度通過核函數計算得到。計算上下文相似度的方法包括基於字符串核(string kernel)的方法和基於樹核函數(tree kernel)的方法。

給定字符串x=x1,...,xxx=x_1,...,x_{|x|},字符串覈定義如下:

  • |x| 表示字符串的長度
  • i=(i1,...,iu)i=(i_1,...,i_{|u|}),表示x中|u|個位置索引,且滿足i1i2...iui_1\leq i_2\leq ... \leq i_{|u|}
  • u = x[i] ,表示x中位置索引i=(i1,...,iu)i=(i_1,...,i_{|u|})對應的字符串子串
  • li=iui1+1l_i = i_{|u|}-i_1+1, 子串u在字符串x中的跨度
  • n\sum\limits^{n} 長度爲n的字符子串集合
  • =n=0n\sum\limits^{*} = \bigcup\limits_{n=0}^{\infty}\sum\limits^{n},表示全部可能的字符子串集合
  • λl(i)\lambda^{l(i)}表示位置索引i=(i1,...,iu)i=(i_1,...,i_{|u|})對應的字符子串u=x[i]u=x[i]的權重,λ(0,1]\lambda\in (0,1]是衰減因子,懲罰長度過長或不連續的字符子串。
  • ϕu(x)=i:u=x[i]λl(i)\phi_u(x) = \sum\limits_{i:u=x[i]}\lambda^{l(i)},表示字符子串基於x對應的特徵函數。u在x中可能出現多次,該特徵值等於不同位置的u對應的權重之和。

基於上述定義,字符串覈定義兩個字符串x和y之間的相似度爲:
在這裏插入圖片描述
上式中,ϕ(x),ϕ(y)\phi(x),\phi(y)分別表示x和y對應的特徵向量。 爲每個字符串顯式生成特徵向量具有指數級複雜度,針對這一問題,Lodhi等人提出基於動態規劃的核函數計算方法[5].

例如,給定一個字符串x=cat,其對應的特徵向量可以表示爲:
在這裏插入圖片描述
拿子串ct對應的權重ϕct(cat)\phi_{ct}(cat)和子串at對應的權重ϕat(cat)\phi_{at}(cat)相比,前者的權重是λ3\lambda^3,後者的權重是λ2\lambda^2,這是由於ct在cat中的跨度是3(3-1+1),at在cat中的跨度是2(3-2+1).

Bunescu和Mooney 將字符串核用於關係分類任務[6]。 給定帶有關係標註的訓練樣本集合,該方法首先基於每個樣本中出現的實體e1,e2e_1,e_2將該樣本切分爲左端上下文CleftC_{left}、中間上下文CmiddleC_{middle}和右端上下文CrightC_{right}三部分。然後,給定測試樣本,根據其中出現的實體e1,e2e_1',e_2'對其進行同樣的切分,生成Cleft,Cmiddle,CrightC'_{left},C'_{middle},C'_{right},並基於字符串覈計算該樣本與每個訓練樣本在上述三個上下文上的相似度K(Cleft,Cleft),K(Cmiddle,Cmiddle),K(Cright,Cright),K(C_{left},C'_{left}),K(C_{middle},C'_{middle}),K(C_{right},C'_{right}),。最後,對上述三個相似度得分進行加和,並用於訓練多分類SVM模型完成關係分類任務。下圖給出基於測試樣本和一個訓練樣本進行相似度計算的示意圖。

在這裏插入圖片描述
Zelenko等人將實體對所在句法樹作爲上下文[7] ,使用樹核函數計算上下文之間的相似度。和字符串核相比,樹核函數計算的是在兩個句法樹中共同出現的子樹數目。給定兩個子樹T1,T2T_1,T_2,樹核函數檢查T1,T2T_1,T_2的根節點屬性是否一致,如果一致,將1加到最終核函數返回結果中。對於根節點屬性一致的兩個子樹。用children(T1T_1)和children(T2T_2)分別表示T1,T2T_1,T_2中根節點對應的子樹序列,並採用字符串核函數計算二者之間的相似度,並加到核函數返回結果中。不同於使用全部句法樹信息,Bunescu 和 Mooney 僅使用兩個實體在依存句法樹之間的路徑作爲上下文[8].

和基於特徵的方法相比,基於核函數的方法無需人工指定特徵,但方法複雜度較高。

3.3 深度學習方法

基於特徵的方法需要人工設計特徵,用於關係分類任務。這類方法適用於標註數據量較少的情況。基於核函數的方法能夠從字符串或句法樹中自動抽取大量特徵,用於關係分類任務。但這類方法始終是在衡量兩段文本在子串或子樹上的相似度,並沒有從語義的層面對二者進行比較。此外,上述兩類方法通常都依賴詞性標註和句法分析的結果,用於特徵抽取或核函數計算,這就導致詞性標註和句法分析模塊產生的錯誤會在整個關係分類流程中被不斷傳播和放大,並最終影響關係分類的效果。(級聯模型,多個子模塊)

近年來,隨着深度學習技術的不斷髮展,端到端的關係分類方法開始佔據主導地位。由於該類方法魯棒性高並且無須人工指定特徵,因此相關研究越來越多。

Socher等人提出基於循環神經網絡(recursive neural network)的關係分類方法[9].

首先,該方法爲輸入句子中的每個單詞x指定一個n維向量vxRnv_x\in R^n和一個矩陣VxRn×nV_x\in R^{n\times n}. vxv_x使用該單詞對應的(預訓練)詞向量進行初始化,VxV_x使用高斯分佈進行初始化。

然後,對於輸入句子中待分類的實體e1,e2e_1,e_2,在句法樹中找到能夠覆蓋這兩個實體的最小子樹,並從該子樹對應的葉子節點開始,通過自底向上的方式兩兩合併相鄰兩個單詞或短語xleft,xrightx_{left},x_{right}對應的向量和矩陣,直到遍歷至該子樹對應的根節點時結束。
在這裏插入圖片描述
上式中,(vxleft,Vxleft),(vxright,Vxright)(v_{x_{left}},V_{x_{left}}),(v_{x_{right}},V_{x_{right}})分別表示相鄰單詞或短語xleft,xrightx_{left},x_{right}對應的向量和矩陣。WVRn×2n,WMRn×2nW_V\in R^{n\times 2n},W_M\in R^{n\times 2n}是合併操作對應的模型參數,g(·)表示一個非線性函數(例如 sigmoid 或tanh).上述合併操作確保了句法樹每個中間節點對應的向量pRnp\in R^n和矩陣PRn×nP\in R^{n\times n}在維數上和葉子節點保持一致。

最後,基於根節點對應的向量p,使用 softmax 函數對關係集合中的關係候選進行打分和排序(基於關係集合,進行多分類),並選擇得分最高的關係候選作爲待分類實體e1,e2e_1,e_2間滿足的關係。該方法基於詞向量和句法樹本身的結構,將待分類的兩個實體間的上下文轉換爲向量表示,有效地考慮了句法和語義信息,但並未特殊考慮實體本身在句子中的位置和語義信息。下圖給出基於循環神經網絡的關係分類方法。
在這裏插入圖片描述
Zeng等人提出基於卷積神經網絡(CNN)的關係分類方法[10]。首先,該方法爲輸入句子中每個單詞w生成一個向量表示v=[vw;(vwpve1p);(vwpve2p)]v=[v_w;(v_w^p-v_{e_1}^p);(v_w^p-v_{e2}^p)]vwv_w表示單詞w對應的詞向量,vwpv_w^p表示單詞w對應的位置向量,該向量隨機初始化,(vwpve1p),(vwpve2p)(v_w^p-v_{e_1}^p),(v_w^p-v_{e_2}^p)分別表示w和待分類實體e1,e2e_1,e_2在向量空間上的距離。將位置向量引人關係分類任務是考慮到距離待分類實體越近的單詞,對分類結果的影響可能越大。

然後,通過卷積操作將輸入句子對應的向量表示序列轉化爲局部特徵向量序列,並進一步通過最大池化生成全局特徵向量。

最後,輸出層將句子對應的全局特徵向量轉化爲輸出向量,並使用 softmax函數對關係集合中的關係候選進行打分和排序,選擇得分最高的關係候選作爲待分類實體e1,e2e_1,e_2間所滿足的關係。下圖給出基於卷積神經網絡的關係分類方法。
在這裏插入圖片描述
Miwa和Bansa提出基於遞歸神經網絡(RNN)的關係分類方法[11]。

首先,該方法爲輸入句子中每個單詞w生成一個向量表示,該向量表示由w對應的詞向量v(w)v^{(w)}。詞性標註向量v(p)v^{(p)}。依存句法類型向量v(d)v^{(d)}。和實體標籤向量v(e)v^{(e)}連接組成。

然後,使用雙向 LSTM將輸入句子(單詞序列/單詞表示向量序列)轉化爲隱狀態向量序列{h1,...,hN}\{h_1,...,h_N\}.每個隱狀態向量hth_t,對應的輸入是t-1時刻隱狀態向量ht1h_{t-1},以及t時刻單詞wtw_t對應的向量表示$$。在此基礎上,該方法基於一個兩層神經網絡,通過自左向右的方式,預測每個單詞對應的實體類型標註。
在這裏插入圖片描述

W(eh),b(eh),W(ey),b(ey)W^{(e_h)},b^{(e_h),W^{(e_y)},b^{(e_y)}}表示待學習的模型參數,softmax操作從全部實體類型標註集合中選擇最可能的標註作爲單詞wtw_t的實體類型(基於實體類型標註集合做多分類/(命名)實體識別)。這裏,實體標註準則採用常用的 BILOU(begin,inside,last,outside 和 unit)形式。B表示當前單詞是某個實體的第一個詞,I表示當前單詞是某個實體的中間詞,L表示當前單詞是某個實體最後一個詞,0表示當前單詞不屬於任何實體,U 表示當前單詞是一個單詞類型的實體。例如在下圖的句子“In 1909,Sydney Yates was born in Chicago.”
中,單詞Sydney和Yates 對應的實體類型預測結果分別是B-PER和L-PER,PER 表示該單詞所在實體的類型是 PERSON.
在這裏插入圖片描述

接下來,對於實體類型預測模塊(實體識別)預測出來的兩個實體e1,e2e_1,e_2在當前句子對應的依存句法樹中找到能夠覆蓋該實體對的最小依存句法子樹,並採用TreeLSTM生成該子樹對應的向量表示。

最後,基於子樹根節點對應的 TreeLSTM 向量表示,使用 softmax 函數對關係集合中的關係候選進行打分和排序,並選擇得分最高的關係候選作爲待分類實體e1,e2e_1,e_2間所滿足的關係。

上述工作將實體識別和關係分類這兩個任務融在同一個模型中完成。對於傳統的關係分類任務,在給定實體對e1,e2e_1,e_2情況下,可以基於 TreeLSTM 直接完成(關係)分類任務。

4. 半監督學習算法

4.1 基於自舉的方法

基於自舉(bootstrapping)的關係分類方法按照如下流程工作:首先,使用某個關係r對應的有限標註數據(即滿足該關係的實體對集合),對無標註文本進行實體標註;然後,從標註結果中抽取出r對應的關係模板;接下來,將新抽取出來的模板應用到無標註文本上,獲取更多滿足關係r的實體對;上述過程不斷迭代,直到達到預先指定的停止條件爲止。該過程中抽取得到的關係模板可以用於後續的關係分類任務。通過上述描述可以看到,基於自舉的關係分類方法需要滿足兩個條件:①對於給定關係r,需要少量滿足該關係的實體對實例:②需要大量無標註文本,用於實體對擴展和關係模板抽取(一個關係r可以對應多個關係模版)。

Brin提出的 DIPRE(dual iterative pattern relation expansion)方法是自舉法的典型代表[12]。該方法採用下述步驟對(author,book)關係進行實體對擴展和關係模板抽取,抽取得到的關係模板可以用來判斷兩個實體是否滿足(author,book)關係。

  • 首先,給定關係(author,book)和滿足該關係的一個種子實體對集合(例如<Conan Doyle,The Adventures of Sherlock Holmes>),從大量無結構文檔中抽取出具有如下格式的6元組:<order,author,book,prefix, suffix,middle>.其中,order 表示兩個實體在句子中的相對位置關係,如果 author在抽取句子中的位置位於 book之前,order的值設定爲1,否則設定爲0.prefix、suffix 和 middle 分別表示這兩個實體左端、右端和中間的字符串上下文。例如,從句子 Sir Arthur Conan Doyle wrote The Adventures of Sherlock Holmes in 1892中抽取出來的6元組是<1,Arthur Conan Doyle,The Adventures of Sherlock Holmes,Sir,in 1892,wrote>.
  • 然後,按照order和middle 部分對抽取得到的6元組進行分組,並將同一組中的6元組整理成如下形式:<longest-common-suffix_of_prefix_strings,author,middle,book,longest-common-prefix_of_suffix_strings>.從上述6元組抽取出來<Sir,Conan Doyle,wrote,The Adventures of Sherlock Holmes,in 1892>.其中,Sir是wrote這個 middle 對應的模板中 prefix的最長公共後綴子串,in 1892是wrote這個middle 對應的模板中suffix的最長公共前綴子串。
  • 接下來,對上一步得到的模板進行泛化,將author和book 替換成非終結符*,得到泛化模板<Sir,,wrote,,in 1892>.重複上述三步不斷抽取新模板和新實體對,例如《Conan Doyle,The Speckled Band》。新的實體對可以用於擴展當前關係對應的知識庫,新的關係模板可以用於進行關於當前關係的分類任務。

Agichtein和 Gravano提出 Snowball 方法[13]用於識別(organization,location)關係。和DIPRE方法類似,Snowball 方法抽取5元組<prefix,organization,middle,location,suffix>(DIPRE 中包括的 order 信息被 Snowball忽略);和 DIPRE 不同,Snowball 並不採用字符匹配的方進行元組分組,而是將 prefix、middle 和 suffix轉化爲向量後採用向量距離的方式進行分組。例如,對於《CMU,Pittsbugh》這個
實體對,抽取出來一個5元組是<go to,CMU,campus in,Pittsbugh,to meet>(prefix,middle 和 suffix 設置長度爲2的約束條件)。對prefix、middle和 suffix每一個單詞打分:
在這裏插入圖片描述
基於上述打分機制,進一步爲兩個元組之間的相似度打分:Match(pattern1,pattern2)=Vprefix1Vprefix2+Vmiddle1Vmiddle2+Vsuffix1Vsuffix2Match(pattern_1,pattern_2)=V_{prefix1}\cdot V_{prefix2}+V_{middle1}\cdot V_{middle2}+V_{suffix1}\cdot V_{suffix2},並按照上述得分對不同5元組進行聚類分組。

對於每個 pattern,Snowball採用如下方式進行置信度的計算:
在這裏插入圖片描述
PpositiveP_{positive}表示新模板能夠抽取先前已經被抽取並滿足該關係的實體對的數目, PnegtiveP_{negtive}表示新抽取模板抽取出來的與之前抽取結果發生衝突的實體對數目。

和DIPRE相比,Snowball 通過定義打分函數的方式,對抽取獲得的 pattern 進行置信度計算,這樣可以在一定程度上保證抽取結果的質量。

4.2 基於遠監督的方法

基於遠監督(distant supervision)的方法按照如下步驟完成關係分類任務:①針對待分類關係集合中的每個關係r,獲取滿足該關係的實體對集合;②從文本集合中找到並保留同時包含某個實體對的句子;③從全部保留下來的句子集合中抽取特徵,並與關係r建立對應關係。這樣,如果保留下來的句子數目是|S|,從每個句子中抽取的特徵數目是|F|,那麼總共抽取的特徵數就是|S|x |F|;④將抽取出來的《特徵,關係》數據作爲標註數據,用於訓練多分類器完成關係分類任務。遠監督關係分類方法基於的主要假設是:如果一個實體對滿足某個給定關係,那麼任何同時包含該實體對的句子都可能在闡述該關係。這樣就可以基於滿足某個關係的實體對從上述句子中抽取大量特徵,用於關係分類任務。當然,通過上述方式構造的標註數據必然存在一定量的噪音,通過訓練調整不同特徵對應的權重,可以使噪音特徵的權重變小、有效特徵的權重變大。

Mintz等人針對 Freebase 中選取的102個關係,提出基於遠監督的關係分類方法[14]。該方法基於上述102個關係對應的 1800000個三元組,從維基百科中爲每個關係抽取特徵集合,用於多分類器的訓練。下圖給出Freebase 中排名最高的關係列表和對應實體對。
在這裏插入圖片描述
該方法使用的特徵包括詞彙化特徵和語法特徵兩類。詞彙化特徵從兩個實體對應的上下文中抽取五類信息,並將它們連接在一起構成一個獨立特徵:①兩個實體之間的單詞序列;②兩個實體之間單詞對應的詞性序列;③指示特徵,用來明哪個實體(e1e_1表示首先出現的實體,e2e_2表示後出現的實體)在句子中首先出現;④e1e_1左端的k{0,1,2}k\in \{0,1,2\}個詞及對應的詞性:⑤e2e_2右端的k{0,1,2}k\in \{0,1,2\}個詞及對應的詞性;語法特徵從句子對應的依存句法樹中抽取兩類信息,並將它們連接在一起構成一個獨立特徵:①兩個實體在依存句法樹上的路徑;② 每個實體對應的窗口節點(window node).窗口節點表示並不在兩個實體之間的路徑上、但與某個實體直接相連的節點。

下圖給出 Astronomer Edwin Hubble was born in Marshfield,Missouri 對應的依存句法樹以及從中抽取出來的特徵。
在這裏插入圖片描述
除上述特徵外,實體類型信息(person、location,organization 等)也可以作爲特徵。

上述介紹的遠監督關係分類工作存在兩個主要問題:第一,兩個實體之間滿足的關係可能有多個。例如,對於實體對<Bill Gates,Microsoft>,Bill Gates founded Microsoft in 1975和 Bill Gates stepped down as CEO of Microsoft in 2000.兩個句子都包含了該實體對,但二者之間滿足的關係完全不同,這爲分類特徵抽取引人大量噪音。第二,特徵抽取通常依賴於外部工具,例如詞性標註器和句法分析器等,這些工作並沒有專門針對關係分類任務進行訓練,分析產生的錯誤很容易傳導到關係分類的後續階段中去。

Zeng等人提出將多實例學習(multi-instance learning)和深度學習相結合的遠監督關係分類方法[15].針對上述第一個問題,該方法使用多實例學習,將基於每個實體對自動抽取出來的<句子,關係標註>對看做一個Bag,在模型參數訓練過程中,只選擇 Bag 中使得模型預測得分最高的實例用於模型參數更新,針對上述第二個問題,該方法基於卷積神經網絡進行自動特徵抽取,這樣做無須人工設計分類特徵。

5. 總結

識別自然語言中出現的實體以及實體之間的關係,是自然語言理解的基礎,也是智能問答最重要的組成部分。傳統方法使用模板或特徵完成關係分類任務。這類方法的優點是可以根據語言學和領域知識自主設計模板或特徵。然而,並非所有對該任務有效的特徵都是可解釋的和具體的,因此這類特徵無法通過端到端的訓練自動總結出有效的特徵子集。與之對比,基於深度學習的方法能夠通過端到端的方式從訓練數據中自動學習對該任務有效的特徵表示,但由於表示學習獲得的特徵向量無法解釋(黑盒子),因此該類方法很難進行問題追蹤。如何將人工特徵和表示學習特徵相結合,是自然語言處理領域一個重要的研究方向。

6. 參考文獻

[1]Marti A.Hearst.Automatic Acquisition of Hvponyms from Large Text Corpora[C].COLING,1992.
[2]Deepak Ravichandran,Eduard Hovy.Learning Surface Text Patterns for a Question Answering System[C].ACL,2002.
[31 Nanda Kambhatla.Combining Lexical,Svntactic and Semantic Features with Maximum Entropy Models for Extracting Relations[C].ACL,2004.
[4]GuoDong Zhou,Jian Su,Jie Zhang,etc.Exploring Various Knowledge in Relation Extraction[C].ACL,2005.
[5] Huma Lodhi,John Shawe-Taylor,Nello Cristianini,etc.Text Classification using String Kernels[J].Journal of Machine Learning Re-
search,2002,2(3):419-444.
[6]Razvan C.Bunescu,Raymond J.Mooney.Subsequence Kernels for Relation Extraction[C].NIPS,2005.
[7] Dmitry Zelenko,Chinatsu Aone,Anthony Richardella.Kernel Methods for Relation Extraction[J].Journal of Machine Learning Research,2003,3(3):1083-1106.
[8]Razvan C.Bunescu,Raymond J.Mooney.A Shortest Path Dependency Kernel for Relation Extraction[C].EMNLP,2005.
[9]Richard Socher,Brody Huval,Christopher D.Manning,etc.Semantic Compositionality through Recursive Matrix-Vector Spaces[C].
EMNLP,2012.
[10]Daojian Zeng,Kang Liu,Siwei Lai,etc.Relation Classification via Convolutional Deep Neural Network[C].COLING,2014.
[11]Makoto Miwa,Mohit Bansa.End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures[C].ACL,2016.
[12]Sergey Brin.Extracting Patterns and Relations from the World Wide Web[M].Berlin:springer,1999.
[13]Eugene Agichtein,Luis Gravano.Snowball:Extracting Relations from Large Plain-Text Collections[C].Acm Conference on Digital
Libraries,2000.
[14]Mike Mintz,Steven Bills,Rion Snow,etc.Distant supervision for relation extraction without labeled data.ACL,2009.
[15] Daojian Zeng,Kang Liu,Yubo Chen,etc.Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C].
EMNLP,2015.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章