螞蟻金服金融大腦的挑戰賽的實現代碼 NLP文本相似度計算

近期做了一些NLP的研究,並基於6月份螞蟻金服金融大腦的挑戰賽,完成了文本相似度計算的驗證。

主要思路是基於word2vec來進行訓練,並實現文本相似度的計算。

所使用的語料,包括了公開的wiki語料,網友收集的微信語料,以及此大賽中的語料。

其中微信語料的位置在https://spaces.ac.cn/archives/4304(可參考)。

注意,此次語料訓練採用了增量訓練的方式。

整體的代碼位置在,https://github.com/renwoxing2016/nlp-ali,大家可參考。

使用方式:

1、下載此代碼到本地。

2、下載訓練的模型,參見模型的位置

下載後放到models目錄下。

3、運行python ali_wx_wiki_vec_compare.py ./input_test.txt ./temp/

4、結果在temp目錄下。

訓練:

1、下載數據到本地。拷貝到此代碼大的根目錄下。數據比較大有待上傳後更新其網址。

2、運行如下腳本即可。

python word2vec_train.py


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章