Gensim 中 word2vec 模型的恢復訓練
本文爲系列文章之一,前面的幾篇請點擊鏈接:
NLP 利器 gensim 庫基本特性介紹和安裝方式
NLP 利器 Gensim 庫的使用之 Word2Vec 模型案例演示
NLP 利器 Gensim 來訓練自己的 word2vec 詞向量模型
NLP 利器 Gensim 來訓練 word2vec 詞向量模型的參數設置
NLP 利器 Gensim 中 word2vec 模型的內存需求,和模型評估方式
恢復訓練
載入模型,並繼續訓練:
model = gensim.models.Word2Vec.load('./w2v.m')
more_sentences = [
['Advanced', 'users', 'can', 'load', 'a', 'model',
'and', 'continue', 'training', 'it', 'with', 'more', 'sentences']
]
model.build_vocab(more_sentences, update=True)
model.train(more_sentences, total_examples=model.corpus_count, epochs=model.iter)
model.train 方法參數如下:
train(sentences=None, corpus_file=None, total_examples=None, total_words=None, epochs=None, start_alpha=None, end_alpha=None, word_count=0, queue_factor=2, report_delay=1.0, compute_loss=False, callbacks=())
其中 total_examples 或者 total_words 必須設置,如果語料 sentences 和提供給 build_vocab 中的相同,那麼可以簡單地寫成 total_examples=self.corpus_count,另外 epochs 參數必須提供,如果我們只需要執行 train() 一次(推薦這麼做),可以設置爲 epochs=self.iter
注意:如果是 C 編寫的模型,那重新載入後,無法繼續訓練!!!