論文淺嘗 - ESWA | 知識圖譜的自動擴充方法

論文筆記整理:譚亦鳴,東南大學博士。


來源:ESWA141(2020)

鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839

爲了使計算機理解人類語言,並且實現推理,人類知識需要被表示並儲存爲能夠被計算機處理的形式。知識圖譜(KG)被設計爲一種反應詞及詞間關係的結構形式。但是目前的知識圖譜存在兩個限制因素:其一是對於大部分人類語言來說,圖譜的規模和範圍存在侷限性;其二則是新詞跟進。爲了解決這些問題,本文提出PolarisX,一種通過實時抓取分析網絡新聞和社交媒體實現自動擴展的知識圖譜,利用微調的BERT模型構建無語言依賴性的知識圖譜。基於BERT的關係抽取模型被用來抽取新的關係,並將它們添加到知識圖譜中。作者驗證了PolarisX的novelty與準確性,確認其新詞處理能力以及“無語言依賴性”。

動機與貢獻

如上文所屬,現有KG存在(大多數語言上的)規模不足,無法跟進新詞等兩個侷限性。

如表1所示,這裏的新詞分爲兩種:1.新詞新意;2.舊詞新意。

對於這兩個問題,作者認爲解決的關鍵在於KG的構建需要跟上新詞出現的節奏(考慮到新詞出現的頻率以及開放域等特點,顯然依賴人工跟進解決不了這個問題),一種合理的方式是爬取社交媒體獲取新詞,而後抽取新的知識(尤其是關係),並添加到知識圖譜中。

因此,本文提出了一種自動成長的知識圖譜PolarisX(大數據處理平臺Polaris的一個部分),通過爬取新聞網站以及社交媒體,抽取新的關係,生成對應的知識子圖,然後添加到知識圖譜中,並採用ConceptNet驗證了它的有效性。

作者認爲本文的主要貢獻爲:

1.處理新詞:PolarisX能夠利用已有數據生成KG並通過新聞和社交媒體實時跟進新詞的涵蓋

2.無語言依賴性:使用multilingual BERT模型通用的處理各種語言

模型與算法

下圖是PolarisX的自動構建框架,主要包含三個部分:

1.Social Crawler用於擴充知識資源(社交媒體/新聞),並做關鍵詞抽取

2.Semantic Analyzer的主要作用是確定新的關係

3.Knowledge Miner負責構建和擴充知識圖譜

Social Crawler:

這裏主要實時爬取Twitter和新聞數據,這些數據被作爲擴充KG的原始資源,推特數據利用Apache AsterixDB系統的 Feed Adapter function實現實時收集,新聞數據則來自NewsAPIhttps://newsapi.org/.),對於獲取的資源使用LDA(Latent Dirichlet Allocation)抽取其中的關鍵詞。

Semantic analyzer:

新關係(主要指關鍵詞之間的關係)的抽取是通過BERT模型實現的(作者在這裏使用的是BERT-base,Multilingual Cased預訓練模型,支持104種語言),微調使用TACRED數據集實現。

Knowledge Miner

如下圖,knowledge miner利用字符串匹配將新發現的關係鏈接到現有知識圖譜上

實驗與結果

爲了驗證自動擴充KG方法的效果,作者提出了四個實驗方式:

1.驗證處理新詞的能力

使用ConceptNet 5.5(英語/韓語)以及使用PolarisX擴充的ConceptNet 5.5對比其中一詞“Sonata”(一般視作一個音樂術語,在韓國則還有相同名字的汽車品牌)

從效果上看,使用PolarisX擴充的ConceptNet涵蓋了許多Sonata汽車的信息,下表展示了ConceptNet及ConceptNet+PolarisX兩者的一個對比:

2.知識圖譜擴充

與DBpedia,YAGO等現有KG的對比來看,ConceptNet+PolarisX具有更多的邊,作者認爲這粗略的表明具有更加豐富的知識(A higher total number of edges roughly means a richer knowledge base

3.語義解析準確率

作者驗證BERT-based關係抽取模型的效果如下表所示:


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章