利用Word2Vec訓練詞向量過程

原創

云杉123

2020-02-26 01:45

先明確一點，選用不同的詞向量作爲模型的初始值，效果的差異非常大！那麼怎麼產生一個好的詞向量呢？參看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F

1、英文的詞向量可以訓練，也可以用Google訓練好的那個模型。
2、但是中文就不行了，沒有一個公佈一個權威的詞向量。

所以，當我們自己做試驗時，就需要動手訓練這個語義空間的詞向量（注：不同的語義空間詞向量是不同的）。那麼如何訓練一個好的詞向量是有一定套路的。從開頭那個鏈接文章知道：

“首先根據具體任務，選一個領域相似的語料，在這個條件下，語料越大越好。然後下載一個 word2vec 的新版（14年9月更新），語料小（小於一億詞，約 500MB 的文本文件）的時候用 Skip-gram 模型，語料大的時候用 CBOW 模型。最後記得設置迭代次數爲三五十次，維度至少選 50，就可以了。”

語料對詞向量的影響比模型的影響要重要得多得多得多（重要的事說三遍）

很多論文都提到語料越大越好，我們發現，語料的領域更重要。領域選好了，可能只要 1/10 甚至 1/100 的語料，就能達到一個大規模泛領域語料的效果.文章還做了實驗，當只有小規模的領域內語料，而有大規模的領域外語料時，到底是語料越純越好，還是越大越好。在我們的實驗中，是越純越好。這一部分實驗數據比較豐富，原文相對清楚一些。

再說下用gensim訓練詞向量時遇到的坑。
1、可以直接包gensim。gensim理由Word2Vec。
2、Sentences輸入的是分好的詞的句子。詞與詞之間空格。
3、

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

利用Word2Vec訓練詞向量過程

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

shell學習--變量

2017年想要學習的技術

在ubuntu 16.04上搭建spark平臺

處理數據（文本）時遇到過的坑

shell編程時的坑

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結