助力句子變換:35W抽象、43W同義、13W簡稱三大知識庫對外開源

句子變換,是指根據給定中文句子,藉助某種語言處理手段,擴展出一定數據規模的中文句子集合,是一個從1到N的過程,目的在於解決搜索(查詢擴展)、分類(樣本擴充)、抽取(數據回標)、推薦與生成(關聯引導)等多個工業級應用任務。

我們發現,在處理以上幾個任務的過程中,句子級別的操作,是以句子中的詞爲基本單位來實現的,即以詞的更換、刪除,語序和組合規則的重組等操作爲基本手段。

將詞的這種操作依據進行有效整理和形式化,是一項重要的工作,我們在實際開發過程中,對該工作的成果進一步歸類成“抽象知識”、“同義知識”、“簡稱知識”三大類知識庫,並將其中的部分數據集開放至OpenKG,供大家下載使用。

本期內容以開放的句子變換爲主題,對常見的句子變換操作典型應用場景、數據地平線開放的三大知識三元組概要,以及它們在實際句子變換中所能發揮的作用進行介紹。

一、句子變換操作的典型應用場景

句子變換在搜索(查詢擴展)、分類(樣本擴充)、抽取(數據回標)、推薦與生成(關聯引導)等典型NLP傳統任務中均有應用。具體體現在基於句子標準化的輿情文本聚合,基於句子擴展的信息採集與推薦、基於句子變換的數據擴充和數據回標等三個方面。

1、 基於句子標準化的輿情文本聚合

文本去重是輿情分析的一項重要任務,解決的方法包括基於標題的去重、基於文本全文的去重、基於文檔摘要的去重、基於標題與文檔元數據的去重等多種途徑。

處理速度和計算複雜度是去重過程中需要考慮的兩個重要因素,尤其是在項目工期緊且需要大規模進行文本去重時,將特定文本進行代表內容的標準化和規範化處理成爲了一個重要手段。

在這裏插入圖片描述
圖1-文本去重系統中的指紋架構圖

內容的標準化和規範化,指將一個來源內容生成一個唯一的md5指紋,指紋的值取決於標準後的結果。一般而言,常規的操作包括對內容進行停用詞處理、短句語序統一重排等,也有進一步地在此基礎上進行文本的詞義標準化映射、句子縮寫、句子複寫、句子翻譯。此外,也有加入一些其他的信息,如文本的時間信息、作者信息等進行標準化融合。

2、 基於句子擴展的信息採集與推薦

定點搜索和採集同樣也是輿情處理過程中的兩個重要手段。定點搜索,指針對關鍵詞或關鍵詞組成的query進行擴展,是搜索和採集的前置操作:如監控“營業收入下降”這一節點時,考慮到目標文檔中可能存在的表述不一致,需要需要進行擴展,形成“營收下跌”、“營收下降”、“經營收入下降”等多個關鍵詞。

在這裏插入圖片描述
圖2-基於同義知識庫的句子擴展

基於句子擴展的關聯推薦也是一個重要的應用。通過對原先給定的query,通過識別出其中的關鍵信息,藉助外部知識庫,對關鍵信息集合中的元素進行替換,如獲取抽象關係實體、同級關係(同屬一個抽象類)實體進行替換,得到“美元貶值”擴展成“人民幣貶值”和“貨幣貶值”等推薦結果。

3、 基於句子變換的數據擴充與數據回標

無論是分類任務還是抽取任務,都存在着樣本不足、訓練數據不夠的問題,爲此,數據擴充和數據回標是兩個主要手段。其中,數據擴充主要包括詞語替換和回譯等幾種方式。

詞語替換,指在不更改句子含義的情況下替換文本中出現的單詞,實現方式包括基於同義詞庫的替換 、基於詞嵌入替換、基於TF-IDF的單詞替換等,基於TF-IDF的單詞替換也常用於確定給定句子中需要替換的詞語成分;藉助回譯進行數據增強也是一種方案,即利用機器翻譯來釋義文本,將這個新句子用作原始文本的擴充結果。

在這裏插入圖片描述
圖3-基於遠程監督思想的數據回標

遠程監督思想下基於已有知識庫的數據回標是獲取大規模標註數據的重要方法,其要求在給定知識三元組的情況下,在非結構化文本中進行回查,假設同時出現兩個實體的句子潛在地存在着實體關係。不過,這一操作在實際的處理過程中噪聲會較大。因此,爲了擴大候選召回,可藉助外部知識庫對兩個實體進行擴展,同時可以引入實體之間的關係標記詞以及標記詞的擴展詞作爲增設條件提高準確率。

二、句子變換中的開放知識三元組

準確而大規模的記錄詞語之間的同義、抽象、同義等關係的知識三元組,是完成以上三個應用任務的堅實基礎,在OpenKG中,我們開源了積累的部分中文抽象知識、中文同義知識、中文簡稱三元組數據集,供大家下載使用。下面是對該數據集的介紹:

1、35萬中文抽象知識三元組

1)地址 :
http://www.openkg.cn/dataset/35

在這裏插入圖片描述
圖4-35萬中文抽象知識三元組詳情截圖

2)樣例與介紹

該數據集開放了高質量的346,048條中文抽象知識三元組知識庫,來源於公開網絡文本抽象三元組挖掘、人工手工整理等多個渠道,覆蓋商品、行業、動作、性狀、名詞性實體等多種類型。樣例如下圖所示:
在這裏插入圖片描述

圖5-35萬中文抽象知識示例截圖

該知識庫可用於查詢擴展、句子改寫、句子相似度計算、句子推薦等多個應用場景。

2、 43萬中文同義知識三元組

在這裏插入圖片描述

1) 地址:
http://www.openkg.cn/dataset/sim-knowlege-triples

該數據集開放了43萬中文同義知識三元組,來源於公開數據文本同義詞挖掘、詞典整理與人工修正等多個渠道。樣例如下圖所示:
在這裏插入圖片描述
圖7-43萬中文同義知識示例截圖
該知識庫可用於同義詞擴展相關應用,如搜索擴展查詢、句子相似度計算、數據增強等。

3、 13萬中文簡稱知識三元組

地址:http://www.openkg.cn/dataset/abbr-knowlege-triples
在這裏插入圖片描述

圖8-13萬中文簡稱知識詳情截圖

2) 介紹與樣例

該數據集開放了136,081條中文簡稱知識三元組,涉及高校、商品名稱、公司簡稱等多個領域,來自公開網絡文本簡稱抽取、人工整理等多個渠道。樣例如下圖所示:
在這裏插入圖片描述

圖9-13萬中文簡稱知識示例截圖

中文簡稱知識庫,可用於簡稱抽取評測、實體鏈接、搜索查詢擴展、句子改寫等多個場景。

三、總結

句子級別的操作,是以句子中的詞爲基本單位來實現的,即以詞的更換、刪除,語序和組合規則重組等操作爲基本手段。將詞的這種操作依據進行有效整理以及形式化,是一項重要的工作,我們將這種形式化的成果進一步歸類成“抽象知識”、“同義知識”、“簡稱知識”三大類知識庫,並將其中的一部分數據集開放至OpenKG:

346048條中文抽象知識三元組知識庫,可用於查詢擴展、句子改寫、句子相似度計算、句子推薦等多個應用場景;

43萬中文同義知識三元組,可用於同義詞擴展相關應用,如搜索擴展查詢、句子相似度計算、數據增強等場景;

136,081條中文簡稱知識三元組,涉及高校、商品名稱、公司簡稱等多個領域,可用於簡稱抽取評測、實體鏈接、搜索查詢擴展、句子改寫等多個場景。

底層知識三元組,能夠在句子變換中發揮重要作用,具體體現在基於句子標準化的輿情文本聚合,給予句子擴展的信息採集與推薦、基於句子變換的數據擴充和數據回標等幾個方面。

我們認爲,底層知識庫是自然語言處理的堅實基礎,可在工業界各項算法的實施中發揮奠基性和落地性的支持。

參考鏈接
1、http://www.openkg.cn/organization/datahorizon
2、http://www.openkg.cn/dataset/35
3、http://www.openkg.cn/dataset/sim-knowlege-triples
4、http://www.openkg.cn/dataset/abbr-knowlege-triples
5、https://www.datahorizon.cn

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章