知識圖譜發展報告2018————實體關係學習

關係定義爲兩個或多個實體之間的某種聯繫,實體關係學習就是自動從文本中檢測和識別出實體之間具有某種語義的關係,也稱爲關係抽取。關係抽取的結果通常是一個三元組(實體1,關係,實體2)。例如:句子“北京是中國的首都、政治中心和文化中心”中的表述抽取出的關係表示爲(中國,首都,北京),(中國,政治中心,北京),(中國,文化中心,北京)。關係抽取是知識圖譜的構建和知識抽取中的一個重要環節,具有重要的理論意義和廣闊的應用場景,爲多種應用提供重要的支持,主要表現在:

  • 大規模知識圖譜的自動構建:現有的知識圖譜大多都由專家人工編撰,隨着互聯網的發展,知識呈現爆炸式增長,人工構建知識圖譜特別是構建領域知識圖譜遇到了很大的困難,存在只是覆蓋率低,數據稀疏和更新緩慢等問題。然而利用關係抽取的技術,知識圖譜可以根據結構化的抽取結果自動生成。
  • 爲其他信息獲取技術提供支持。
  • 自然語言理解領域:關係抽取是篇章理解的關鍵技術,運用語言處理技術可以對文本的核心內容進行理解,因此,語義關係抽取的研究將成爲從簡單的自然語言處理技術到真正的自然語言理解應用之間的一個重要紐帶。

研究內容

研究的內容主要包括:限定域關係抽取和開放域關係抽取。

  • 限定域關係抽取是指系統所抽取的關係類別是預先定義好的,比如知識圖譜中定義好的關係類別。在限定域關係抽取中關係的類別一般是人工定義或者從知識圖譜中自動獲取。由於類別已經定義,所以可以人工或者利用啓發式的規則自動標註語料。因而,限定域關係抽取中的主要內容是如何利用有監督或弱監督的方法抽取與定義的實體關係知識。在有監督的方法中主要的研究內容集中在如何挖掘更多能表徵語義關係的特徵上。在弱監督方法中主要的研究內容集中在如何降低自動生成預料的噪聲。
  • 開放域關係抽取,顧名思義就是不限定所抽取關係的類別。由於沒有事先定義關係的類別,因此開放域關係發現中利用關係指代詞來代表關係的類別。因此這個方向的主要研究內容就是如何利用無監督的方法自動的抽取關係三元組。

技術方法和研究現狀

基於規則的關係抽取

所謂基於規則的關係抽取方法就是指首先由通曉語言學知識的專家根據抽取任務的要求設計出一些包含詞彙、句法和語義特徵的手工規則(或稱爲模式),然後在文本分析中尋找與這些模式相匹配的實例,從而推導出實體之間的語義關係。

基於手工規則的方法需要領域專家構建大規模的知識庫,這種方法的勞動代價很大,而且移植性存在着明顯的不足。

基於機器學習的關係抽取

按照機器學習的方法對於語料庫的不同需求大致可以分爲三類:無監督關係抽取、有監督關係抽取和弱監督關係抽取。無監督關係抽取希望把相同關係的模版聚合起來,不需要人工標註的數據,自動地提取出來實體關係。有監督關係抽取是使用人工標註的語料進行訓練,這種方法是目前取得效果最好的,但是需要大量的人力標註,費時費力。因此有學者提出利用知識庫回標文本自動獲取大量的弱監督數據。

  • 無監督關係抽取:基於分佈假設。分佈假設的核心思想是:如果兩個詞的用法相似及出現在相同的上下文中,那麼兩個詞的意思就相近。基於此理論,無監督關係抽取將兩個實體的上下文作爲表徵語義關係的特徵。無監督關係抽取的核心是選取表示實體之間關係的特徵,然後再聚類。
  • 有監督關係抽取:一般將關係抽取看作分類問題,提取特徵向量然後再利用有監督的分類器進行關係抽取,有監督的方法性能較好而且佔據着現在的主導地位。有監督的關係抽取可以分爲:基於特徵向量的方法、基於核函數的方法和基於神經網絡的方法。基於特徵向量的方法特點是需要顯示地將實體關係轉化爲分類器可以接受的特徵向量,其研究重點是怎樣提取具有區分性的特徵。基於核函數的方法不需要構建固有的特徵向量空間,能夠很好地彌補基於特徵向量的不足,基於核函數的方法直接將結構樹作爲處理對象,在計算關係之間的距離的時候不再使用特徵向量的內積而 是用核函數,核函數可以在高維的特徵空間中隱式地計算對象之間的距離。深度學習的方法在有監督關係抽取任務中佔據了主導地位。他們主要是應 用了詞向量將句子表示成了矩陣,再利用卷積神經網絡和 maxpooling 得到句子 的向量表示。最後用 softmax 分類器對該向量進行分類,得到句子的關係類別。
  • 弱監督關係抽取:弱監督關係抽取主要有兩種框架,一種是使用半監督學習和主動學習等技術以儘可能少的代價提升抽取效果,通過大規模的詞聚 類作爲額外的特徵,以解決實體之間特徵過於泛化的問題,從而幫助關係抽取;利用主動學習的技術,通過少量的標註數據來發現分類面附近的 未標註數據,對這些數據進行人工標註,從而以更少的標註代價獲得更好的抽取 效果。另外一種框架是使用回標的思想,利用現有知識庫中的關係三元組,自動 回標三元組中實體所在的文本作爲訓練數據,由於其訓練數據產生過程不需要人 工標註,所以這種方法代價很低,更加適合大規模多領域的網絡文本,它在信息 抽取領域近年來得到較廣泛的應用。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章