[文本語義相似] 基於Word2Vec的wmdistance (Word Mover Distance)

原創

2020-04-30 13:45

文本相似在問答系統中有很重要的應用，如基於知識的問答系統（Knowledge-based QA），基於文檔的問答系統（Documen-based QA），以及基於FAQ的問答系統（Community-QA）等。像對於問題的內容，需要進行相似度匹配，從而選擇出與問題最接近，同時最合理的答案。本節介紹基於Word2Vec的wmdistance計算相似度。

需要知識：

（1）Word2Vec

（2）Word Mover Distance (WMD)

基於gensim實現：

import time
import jieba
import gensim
import threading
import numpy as np


w2v_model_file = 'w2v_model_file'
w2v_model = gensim.models.Word2Vec.load(w2v_model_file)

w2v_model.init_sims(replace=True) # normalizes vectors
distance = w2v_model.wmdistance("提前結清", "我需要提前結清")  
print ('distance>>>>', distance)

測試結果：

"你有什麼事你說。", "我是他家人/朋友，你有什麼事可以給我說？"                    0.6694891459671026
"呃，我想提前結清我名下那個款項。", "我需要提前結清"                            0.6992085239002946
"你們是你們哪，你們哪裏的。", "你們是哪裏，你們是誰？"                          0.27438064142232443   
"提前結清。", "我需要提前結清"                                              0.5150805852253076

其他：

（1）在文本相似標註上的應用：# 粗排：使用word mover distance（WMD）來進行初始的排查，最終得分0-0.15的太相似了，0.45-1分的基本不相關，所以從0.15-0.45分鐘選擇了10%來進行人工標註

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[文本語義相似] 基於Word2Vec的wmdistance (Word Mover Distance)

redis的key亂碼問題和值自增問題

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

CORS error 但是 status code 是200 OK

壓縮上傳的GPU數據的方案

使用skopeo同步鏡像

[Solr] Solr8.5.2 安裝、中文分詞以及定時更新索引

[solr] solr Similarity:切換不同相似度計算方法

[solr] solr5.5.2配置結巴分詞工具

[solr] solr 測試 (python、curl、界面 )

[文本糾錯] pycorrector框架測試

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結