近期做了一些NLP的研究,並基於6月份螞蟻金服金融大腦的挑戰賽,完成了文本相似度計算的驗證。
主要思路是基於word2vec來進行訓練,並實現文本相似度的計算。
所使用的語料,包括了公開的wiki語料,網友收集的微信語料,以及此大賽中的語料。
其中微信語料的位置在https://spaces.ac.cn/archives/4304(可參考)。
注意,此次語料訓練採用了增量訓練的方式。
整體的代碼位置在,https://github.com/renwoxing2016/nlp-ali,大家可參考。
使用方式:
1、下載此代碼到本地。
2、下載訓練的模型,參見模型的位置。
下載後放到models目錄下。
3、運行python ali_wx_wiki_vec_compare.py ./input_test.txt ./temp/
4、結果在temp目錄下。
訓練:
1、下載數據到本地。拷貝到此代碼大的根目錄下。數據比較大有待上傳後更新其網址。
2、運行如下腳本即可。
python word2vec_train.py