【知識圖譜應用】實體鏈接的思路

首發:https://zhuanlan.zhihu.com/p/144183030

本文是段楠《智能問答》一書第三章“實體鏈接”的筆記。(其中有略的部分。同時夾私貨。)

有不對的地方請評論告訴我哈,謝謝。


實體鏈接(entity linking)是指將文本中出現的實體提及(entity mention)關聯到對應在知識圖譜中的相關實體的任務。

具體步驟爲,先生成候選實體,然後給候選實體排序,然後取權重查過閾值的排名第一的候選實體作爲實體鏈接的結果。另外還有知識圖譜中對應不上的情況,稱爲無鏈接指代預測。

1、候選實體生成(Candidate Entity Generation)

1.1、詞典匹配方法

1.1.1、詞典的幾種來源:

1.1.1.1、來源於百科網站:標題、重定向頁、消歧頁、加粗短語(小別名)、超鏈接。

1.1.1.2、來源於知識圖譜:直接從已有的知識圖譜抽取別名,即謂詞common.topic.alias。

1.1.1.3、來源於搜索引擎的查詢日誌:搜索query和點擊的答案中存在的實體,建立二者關係。

(私貨:

1.1.1.4、來源於規則構建詞典:對於行業相關的很多類型的詞,可以通過一兩個規則處理常見且重要的實體名。如保險產品名就很適合這一條。

1.1.1.5、來源於人工構建詞典:對於行業知識圖譜。

對於行業知識圖譜1.1.1.1很可能壓根就沒有;對於大多數非搜索的廠,1.1.1.3的數據量也遠遠不夠而且還很可能費很大力氣做清洗;大量的別名可以來源於某些其實很簡單的規則,比如保險行業的保險產品名,常把分詞後的第一個詞作爲簡稱;人工構建常用詞典,花不了太多的資源,卻很有效。

上述1.1.1.4、1.1.1.5兩條的結果直接加到知識圖譜上,那麼只需要執行1.1.1.2就可以了,至此,思路收束。)

1.1.2、輸入文本與詞典之間的匹配規則:

1.1.2.1、完全匹配(exact match)

1.1.2.2、模糊匹配(fuzzy match)

模糊匹配有分成幾種情況:輸入文本和詞典詞二者之間是a包含b或者b包含a的關係,則匹配成功;二者之間存在一定程度的重疊,則匹配成功;二者符合字符串相似度算法,character dice score, skip bigram dice score, hamming distance等。

(私貨:突然發現是這幾個是一對一對的,dice score與jaccard index ;hamming distance與edit distance。)

(私貨:1.1.2.3、詞向量之間的匹配:將輸入文本與詞典詞都轉化爲詞向量。詞和詞之間的匹配怎麼能少了詞向量呢??但是感覺有點大材小用,因爲既然有了詞向量,還用什麼詞典呢??說的也是哈,,另外這應該是後面候選實體排序的方法纔對,,哎,你懂了就得了,,)

1.2、統計學習方法

對於沒見過的實體提及,上述詞典的方式失效,轉化爲命名實體識別(NER)問題。

書中介紹了兩種方法:CRF、LSTM + CRF 。

2、候選實體排序(Candidate Entity Ranking)

2.1、監督學習方法

2.1.1、上下文無關特徵(context-independent feature)

僅用詞本身的內容作打分和排序。(私貨:下一行內容中省略了三項,其中兩項是英文特有的,一項是要求過於嚴格。)

分爲:完全匹配;實體提及包含候選實體;二者共有的詞(字)數量;類型匹配特徵,即NER出來的類型與知識圖譜中的類型是否一致。

2.1.2、上下文相關特徵(context-dependent feature)

2.1.2.1、詞袋特徵

實體提及用文本的上下文對應的詞袋向量;知識圖譜的候選實體,用知識圖譜中與該實體相連的實體和謂詞,作爲對應的詞袋向量。

(注:2.1.2.2和2.1.2.3針對百科網站的知識,故略。)

2.2、無監督學習方法

2.2.1、基於相連空間模型的方法:就是詞向量做匹配。

2.2.2、基於信息檢索的方法:將百科網站當做實體的表示。略。

3、無鏈接指代預測(Unlinkable Mention Prediction)

由於知識圖譜的不完備性,會出現有點實體提及在知識圖譜中沒有相對應的實體的情況。對於這種情況,對應的實體應該是“空實體(NIL)”。三種方法:

3.1、根本就沒有候選實體:詞典對不上,NER也標不出。

3.2、有候選實體,但是排名第一的候選實體的打分低於有效閾值。

3.3、對實體提及和排名第一的候選實體做二分類,分類結果是不一致。

(私貨:感覺3.3的思路對,但是實施效果比較難弄好。)

3.4、將空實體(NIL)也當做一個實體,加到打分和排序的行列中。

(私貨:感覺3.4還不如3.3呢,上面說的各種有監督、無監督的排序方式都難以處理空實體NIL。)

到這裏就完成了,先選一堆實體候選,再選出正確對應的實體的任務。


如果有錯,請指正;如果覺得還行,請點贊!謝謝!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章