騰訊AI Lab 宣佈開源大規模、高質量的中文詞向量數據,該數據包含800多萬中文詞彙,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高,爲對話回覆質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。但是有一個很大問題,就是詞向量過大,約16g,用普通服務器讀取詞向量需要半小時。一般用戶並不需要太大的詞向量,爲方便用戶,本文蒐集了騰訊原版詞向量精簡版本,並提供各種大小版本的詞向量下載。
有關詞向量和嵌入技術請看這篇文章(圖解word2vec(原文翻譯))
騰訊AI Lab開源大規模高質量中文詞向量數據簡介:
https://cloud.tencent.com/developer/article/1356164
原版騰訊詞向量下載:
https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解壓約16g,文末提供百度雲下載)
如何使用
很多模型需要測試,建議初次測試的時候使用稍小的詞向量版本,比如70000個詞的版本(133mb),最後再使用原版800萬個詞的版本,這樣可以節省很多實驗時間。很多時候,70000個詞的詞向量已經可以滿足要求了。
讀取模型
from gensim.models
import KeyedVectors
model
= KeyedVectors.load_word2vec_format("50-small.txt")
使用模型
model.most_similar(positive=['女',
'國王'],
negative=['男'],
topn=1)
model.doesnt_match("上海 成都 廣州 北京".split(" "))
model.similarity('女人',
'男人')
model.most_similar('特朗普',topn=10)
深度學習模式示例
使用LSTM模型,根據豆瓣評論,預測打分。
- 首先下載豆瓣的數據
豆瓣評論數據149M (文末提供下載)
-
然後下載庫對應的分詞包。(文末提供下載)
- 使用效果
加載70000字典前
加載70000字典後
- 代碼文件見
Use Tencent Word Embeddings with douban datasets.ipynb(文末提供下載)
參考:
https://github.com/cliuxinxin/TX-WORD2VEC-SMALL (這位小哥蒐集的,希望star下)
https://cloud.tencent.com/developer/article/1356164
總結和下載
騰訊AI Lab 開源的中文詞向量數據,包含800多萬中文詞彙,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高,但是有一個很大問題,就是詞向量過大,約15g,用普通服務器讀取詞向量需要半小時。一般用戶並不需要太大的詞向量,爲方便用戶,本文蒐集了騰訊原版詞向量精簡版本,並提供各種大小版本的詞向量下載。並提供各種大小版本的詞向量下載。
詞向量及相關資料下載:
根目錄:
-
5000-small.txt 這個有5000詞,可以下下來玩玩
-
45000-small.txt 這個有4.5w的詞,已經能解決很多問題了
-
70000-small.txt 7w詞 133MB
-
100000-small.txt 10w詞 190MB
- 500000-small.txt 50w詞 953MB
-
1000000-small.txt 100w詞 1.9GB
- 2000000-small.txt 200w詞 3.8GB
- Tencent_AILab_ChineseEmbedding.tar.gz 原版詞向量(6.31g),解壓後16g
code文件夾
-
doubanmovieshortcomments.zip豆瓣評論數據149M
-
分詞文件(如:8000000-dict.txt等)
- Use Tencent Word Embeddings with douban datasets.ipynb(測試代碼)