論文淺嘗 - ESWA | 知識圖譜的自動擴充方法

論文筆記整理：譚亦鳴，東南大學博士。

來源：ESWA141(2020)

鏈接：https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839

爲了使計算機理解人類語言，並且實現推理，人類知識需要被表示並儲存爲能夠被計算機處理的形式。知識圖譜（KG）被設計爲一種反應詞及詞間關係的結構形式。但是目前的知識圖譜存在兩個限制因素：其一是對於大部分人類語言來說，圖譜的規模和範圍存在侷限性；其二則是新詞跟進。爲了解決這些問題，本文提出PolarisX，一種通過實時抓取分析網絡新聞和社交媒體實現自動擴展的知識圖譜，利用微調的BERT模型構建無語言依賴性的知識圖譜。基於BERT的關係抽取模型被用來抽取新的關係，並將它們添加到知識圖譜中。作者驗證了PolarisX的novelty與準確性，確認其新詞處理能力以及“無語言依賴性”。

動機與貢獻

如上文所屬，現有KG存在（大多數語言上的）規模不足，無法跟進新詞等兩個侷限性。

如表1所示，這裏的新詞分爲兩種：1.新詞新意；2.舊詞新意。

對於這兩個問題，作者認爲解決的關鍵在於KG的構建需要跟上新詞出現的節奏（考慮到新詞出現的頻率以及開放域等特點，顯然依賴人工跟進解決不了這個問題），一種合理的方式是爬取社交媒體獲取新詞，而後抽取新的知識（尤其是關係），並添加到知識圖譜中。

因此，本文提出了一種自動成長的知識圖譜PolarisX（大數據處理平臺Polaris的一個部分），通過爬取新聞網站以及社交媒體，抽取新的關係，生成對應的知識子圖，然後添加到知識圖譜中，並採用ConceptNet驗證了它的有效性。

作者認爲本文的主要貢獻爲：

1.處理新詞：PolarisX能夠利用已有數據生成KG並通過新聞和社交媒體實時跟進新詞的涵蓋

2.無語言依賴性：使用multilingual BERT模型通用的處理各種語言

模型與算法

下圖是PolarisX的自動構建框架，主要包含三個部分：

1.Social Crawler用於擴充知識資源（社交媒體/新聞），並做關鍵詞抽取

2.Semantic Analyzer的主要作用是確定新的關係

3.Knowledge Miner負責構建和擴充知識圖譜

Social Crawler：

這裏主要實時爬取Twitter和新聞數據，這些數據被作爲擴充KG的原始資源，推特數據利用Apache AsterixDB系統的 Feed Adapter function實現實時收集，新聞數據則來自NewsAPI（https://newsapi.org/.），對於獲取的資源使用LDA（Latent Dirichlet Allocation）抽取其中的關鍵詞。