推薦：騰訊開源的詞向量精簡版本下載

原創

2021-01-30 10:45

騰訊AI Lab 宣佈開源大規模、高質量的中文詞向量數據，該數據包含800多萬中文詞彙，相比現有的公開數據，在覆蓋率、新鮮度及準確性上大幅提高，爲對話回覆質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。但是有一個很大問題，就是詞向量過大，約16g，用普通服務器讀取詞向量需要半小時。一般用戶並不需要太大的詞向量，爲方便用戶，本文蒐集了騰訊原版詞向量精簡版本，並提供各種大小版本的詞向量下載。

有關詞向量和嵌入技術請看這篇文章（圖解word2vec（原文翻譯））

騰訊AI Lab開源大規模高質量中文詞向量數據簡介：

https://cloud.tencent.com/developer/article/1356164

原版騰訊詞向量下載：

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz （6.31g，解壓約16g，文末提供百度雲下載）

如何使用

很多模型需要測試，建議初次測試的時候使用稍小的詞向量版本，比如70000個詞的版本（133mb），最後再使用原版800萬個詞的版本，這樣可以節省很多實驗時間。很多時候，70000個詞的詞向量已經可以滿足要求了。

讀取模型

from gensim.models
import KeyedVectors

model
= KeyedVectors.load_word2vec_format("50-small.txt")

使用模型

model.most_similar(positive=['女',
'國王'],
negative=['男'],
topn=1)

model.doesnt_match("上海 成都 廣州 北京".split(" "))

model.similarity('女人',
'男人')

model.most_similar('特朗普',topn=10)

深度學習模式示例

使用LSTM模型，根據豆瓣評論，預測打分。

首先下載豆瓣的數據

豆瓣評論數據149M （文末提供下載）

然後下載庫對應的分詞包。（文末提供下載）
使用效果

加載70000字典前

加載70000字典後

代碼文件見

Use Tencent Word Embeddings with douban datasets.ipynb（文末提供下載）

參考：

https://github.com/cliuxinxin/TX-WORD2VEC-SMALL （這位小哥蒐集的，希望star下）

https://cloud.tencent.com/developer/article/1356164

總結和下載

騰訊AI Lab 開源的中文詞向量數據，包含800多萬中文詞彙，相比現有的公開數據，在覆蓋率、新鮮度及準確性上大幅提高，但是有一個很大問題，就是詞向量過大，約15g，用普通服務器讀取詞向量需要半小時。一般用戶並不需要太大的詞向量，爲方便用戶，本文蒐集了騰訊原版詞向量精簡版本，並提供各種大小版本的詞向量下載。並提供各種大小版本的詞向量下載。

詞向量及相關資料下載：

根目錄：

5000-small.txt 這個有5000詞，可以下下來玩玩
45000-small.txt 這個有4.5w的詞，已經能解決很多問題了
70000-small.txt 7w詞 133MB
100000-small.txt 10w詞 190MB
- 500000-small.txt 50w詞 953MB
1000000-small.txt 100w詞 1.9GB
- 2000000-small.txt 200w詞 3.8GB
Tencent_AILab_ChineseEmbedding.tar.gz 原版詞向量（6.31g），解壓後16g

code文件夾

doubanmovieshortcomments.zip豆瓣評論數據149M
分詞文件（如：8000000-dict.txt等）
Use Tencent Word Embeddings with douban datasets.ipynb（測試代碼）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

推薦：騰訊開源的詞向量精簡版本下載

如何使用

深度學習模式示例

參考：

總結和下載

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

程序員在地鐵上寫代碼被路人吐槽:有什麼好裝的!網友評論炸鍋了!

Flutter 中使用url_launcher打開外部瀏覽器、打開外部應用、撥打電話、發送短信、發送郵件

一行能裝逼的JavaScript代碼，我終於忍不住風騷了...

推薦：騰訊開源的詞向量精簡版本下載

網工基礎知識，學習必備——ARP協議

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結