利用Word2Vec訓練詞向量過程

先明確一點,選用不同的詞向量作爲模型的初始值,效果的差異非常大!那麼怎麼產生一個好的詞向量呢?參看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F

1、英文的詞向量可以訓練,也可以用Google訓練好的那個模型。
2、但是中文就不行了,沒有一個公佈一個權威的詞向量。

所以,當我們自己做試驗時,就需要動手訓練這個語義空間的詞向量(注:不同的語義空間詞向量是不同的)。那麼如何訓練一個好的詞向量是有一定套路的。從開頭那個鏈接文章知道:

“首先根據具體任務,選一個領域相似的語料,在這個條件下,語料越大越好。然後下載一個 word2vec 的新版(14年9月更新),語料小(小於一億詞,約 500MB 的文本文件)的時候用 Skip-gram 模型,語料大的時候用 CBOW 模型。最後記得設置迭代次數爲三五十次,維度至少選 50,就可以了。”

語料對詞向量的影響比模型的影響要重要得多得多得多(重要的事說三遍)

很多論文都提到語料越大越好,我們發現,語料的領域更重要。領域選好了,可能只要 1/10 甚至 1/100 的語料,就能達到一個大規模泛領域語料的效果.文章還做了實驗,當只有小規模的領域內語料,而有大規模的領域外語料時,到底是語料越純越好,還是越大越好。在我們的實驗中,是越純越好。這一部分實驗數據比較豐富,原文相對清楚一些。

再說下用gensim訓練詞向量時遇到的坑。
1、可以直接包gensim。gensim理由Word2Vec。
2、Sentences輸入的是分好的詞的句子。詞與詞之間空格。
3、

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章