Gensim 中 word2vec 模型的恢復訓練:載入存儲模型並繼續訓練

Gensim 中 word2vec 模型的恢復訓練

本文爲系列文章之一,前面的幾篇請點擊鏈接:
NLP 利器 gensim 庫基本特性介紹和安裝方式
NLP 利器 Gensim 庫的使用之 Word2Vec 模型案例演示
NLP 利器 Gensim 來訓練自己的 word2vec 詞向量模型
NLP 利器 Gensim 來訓練 word2vec 詞向量模型的參數設置
NLP 利器 Gensim 中 word2vec 模型的內存需求,和模型評估方式

恢復訓練

載入模型,並繼續訓練:

model = gensim.models.Word2Vec.load('./w2v.m')
more_sentences = [
    ['Advanced', 'users', 'can', 'load', 'a', 'model',
     'and', 'continue', 'training', 'it', 'with', 'more', 'sentences']
]
model.build_vocab(more_sentences, update=True)
model.train(more_sentences, total_examples=model.corpus_count, epochs=model.iter)

model.train 方法參數如下:

train(sentences=None, corpus_file=None, total_examples=None, total_words=None, epochs=None, start_alpha=None, end_alpha=None, word_count=0, queue_factor=2, report_delay=1.0, compute_loss=False, callbacks=())

其中 total_examples 或者 total_words 必須設置,如果語料 sentences 和提供給 build_vocab 中的相同,那麼可以簡單地寫成 total_examples=self.corpus_count,另外 epochs 參數必須提供,如果我們只需要執行 train() 一次(推薦這麼做),可以設置爲 epochs=self.iter

注意:如果是 C 編寫的模型,那重新載入後,無法繼續訓練!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章