實體消岐和實體統一

實體消歧
定義:
實體消歧的本質在於一個單詞很可能有多個意思,也就是在不同的上下文中所表達的含義可能不太一樣。

簡單實現
首先我們需要準備一個類似於下面的這種實體庫:

id 實體名 實體描述
1001 蘋果 美國一家高科技公司,經典的產品有Iphone手機
1002 蘋果 水果的一種,一般產自於…

然後當我們拿到Text時,比如“今天蘋果發佈了新的手機”
我們可以將實體庫中的實體描述,全部轉換爲向量,例如:
“美國一家高科技公司,經典的產品有Iphone手機”轉換爲向量V1V_1
“水果的一種,一般產自於…”轉換爲向量V2V_2

然後將“今天蘋果發佈了新的手機”中“蘋果”的上下文“今天,發佈了新的手機”轉換爲向量VtV_t
我們只要將VtV_t分別與V1V_1V2V_2計算相似度,然後對比sim(VtV_t,V1V_1)和sim(VtV_t,V2V_2)
相似度高的,我們則將其看作“蘋果”的真實語義。

注意:如果Text過長可以取實體的前10個和後10個組成向量,如果標準庫過長也可以如此處理

實體統一
定義:
給定倆個實體,判斷是不是同一個實體?
實際上是一個0-1的問題,二分類問題
簡單方法
方法一:基於相似度的方法,給定倆個實體(如果實體較長),倆個實體都是字符串,計算相似度(使用編輯距離),利用閾值判斷是否是同一個實體。
方法二:基於規則的方法,stemming的方法提取原型(提前維護好一個實體描述庫)

公司 原型
百度科技有限公司 百度
百度有限公司 百度
百度廣州分公司 百度
stemming規則 動作
有限公司 刪除
分公司 刪除
北京 刪除
廣州 刪除

方法三:基於知識圖譜的實體統一
提取實體的自身特徵信息和一度關係等,concat成向量進行相似度計算。
原文鏈接:https://blog.csdn.net/lt326030434/article/details/88058739

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章