實體消歧
定義:
實體消歧的本質在於一個單詞很可能有多個意思,也就是在不同的上下文中所表達的含義可能不太一樣。
簡單實現
首先我們需要準備一個類似於下面的這種實體庫:
id | 實體名 | 實體描述 |
---|---|---|
1001 | 蘋果 | 美國一家高科技公司,經典的產品有Iphone手機 |
1002 | 蘋果 | 水果的一種,一般產自於… |
… | … | … |
然後當我們拿到Text時,比如“今天蘋果發佈了新的手機”
我們可以將實體庫中的實體描述,全部轉換爲向量,例如:
“美國一家高科技公司,經典的產品有Iphone手機”轉換爲向量
“水果的一種,一般產自於…”轉換爲向量
然後將“今天蘋果發佈了新的手機”中“蘋果”的上下文“今天,發佈了新的手機”轉換爲向量
我們只要將分別與和計算相似度,然後對比sim(,)和sim(,)
相似度高的,我們則將其看作“蘋果”的真實語義。
注意:如果Text過長可以取實體的前10個和後10個組成向量,如果標準庫過長也可以如此處理
實體統一
定義:
給定倆個實體,判斷是不是同一個實體?
實際上是一個0-1的問題,二分類問題
簡單方法
方法一:基於相似度的方法,給定倆個實體(如果實體較長),倆個實體都是字符串,計算相似度(使用編輯距離),利用閾值判斷是否是同一個實體。
方法二:基於規則的方法,stemming的方法提取原型(提前維護好一個實體描述庫)
公司 | 原型 |
---|---|
百度科技有限公司 | 百度 |
百度有限公司 | 百度 |
百度廣州分公司 | 百度 |
stemming規則 | 動作 |
---|---|
有限公司 | 刪除 |
分公司 | 刪除 |
北京 | 刪除 |
廣州 | 刪除 |
方法三:基於知識圖譜的實體統一
提取實體的自身特徵信息和一度關係等,concat成向量進行相似度計算。
原文鏈接:https://blog.csdn.net/lt326030434/article/details/88058739