word2vec兩種訓練方法

原創

2019-01-04 22:30

Word2Vec類介紹

定義

def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5,
                 max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,
                 sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=hash, iter=5, null_word=0,
                 trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH, compute_loss=False, callbacks=()):

常用參數

sentences：數據類型爲list，可以用BrownCorpus,Text8Corpus或lineSentence來構建sentences
size：向量維度，默認爲100
window：當前詞與預測次在一個句子中最大距離是多少
min_count：用於字典階段，詞頻少於min_count次數的單詞會被丟棄掉，默認爲5
workers：控制訓練的並行數
sg：訓練算法，默認爲0，對應CBOW算法，sg爲1採用skip-gram算法

訓練方式一：

dim=300
embedding_size = dim
model = gensim.models.Word2Vec(LineSentence(model_dir + 'train_word.txt'),
                               size=embedding_size,
                               window=5,
                               min_count=10,
                               workers=multiprocessing.cpu_count())

model.save(model_dir + "word2vec_gensim"+str(embedding_size)+".w2v")
model.wv.save_word2vec_format(model_dir + "word2vec_gensim_300d.txt", binary=False)

訓練方式2：

documents = list(LineSentence(model_dir + 'train_word.txt'))
print(len(documents))
print(documents[:10])
model = gensim.models.Word2Vec(documents, size=300)
model.train(documents, total_examples=len(documents), epochs=10)
model.save("./input/word2vec.w2v")
model.wv.save_word2vec_format("./input/word_gensim_300d.txt", binary=False)

兩種方法比較
在實際應用中，推薦使用訓練方式2，因爲在加載w2v向量時，第二種方式所需的內存大小更小。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

word2vec兩種訓練方法

Word2Vec類介紹

常用參數

訓練方式一：

訓練方式2：

如何在低代碼平臺中引用 JavaScript ？

探究職業發展的關鍵：能力模型解讀

高效率使用windows

如何使用 JavaScript 獲取當前頁面幀率 FPS

工程款拖欠，農民工怎麼了？就得一直忍着委屈求全嗎？

HarmonyOS 實現下拉刷新，上拉加載更多

語音信號處理中的“窗函數”

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

數據預處理DEMO

在python中如何用word2vec來計算句子的相似度

利用NN處理不平衡數據集

kaggle編碼categorical feature總結

離散特徵處理方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結