word2vec两种训练方法

原創

2019-01-04 22:30

Word2Vec类介绍

定义

def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5,
                 max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,
                 sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=hash, iter=5, null_word=0,
                 trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH, compute_loss=False, callbacks=()):

常用参数

sentences：数据类型为list，可以用BrownCorpus,Text8Corpus或lineSentence来构建sentences
size：向量维度，默认为100
window：当前词与预测次在一个句子中最大距离是多少
min_count：用于字典阶段，词频少于min_count次数的单词会被丢弃掉，默认为5
workers：控制训练的并行数
sg：训练算法，默认为0，对应CBOW算法，sg为1采用skip-gram算法

训练方式一：

dim=300
embedding_size = dim
model = gensim.models.Word2Vec(LineSentence(model_dir + 'train_word.txt'),
                               size=embedding_size,
                               window=5,
                               min_count=10,
                               workers=multiprocessing.cpu_count())

model.save(model_dir + "word2vec_gensim"+str(embedding_size)+".w2v")
model.wv.save_word2vec_format(model_dir + "word2vec_gensim_300d.txt", binary=False)

训练方式2：

documents = list(LineSentence(model_dir + 'train_word.txt'))
print(len(documents))
print(documents[:10])
model = gensim.models.Word2Vec(documents, size=300)
model.train(documents, total_examples=len(documents), epochs=10)
model.save("./input/word2vec.w2v")
model.wv.save_word2vec_format("./input/word_gensim_300d.txt", binary=False)

两种方法比较
在实际应用中，推荐使用训练方式2，因为在加载w2v向量时，第二种方式所需的内存大小更小。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

word2vec两种训练方法

Word2Vec类介绍

常用参数

训练方式一：

训练方式2：

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Python 潮流周刊#51：用 Python 绘制美观的图表

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

數據預處理DEMO

在python中如何用word2vec來計算句子的相似度

利用NN處理不平衡數據集

kaggle編碼categorical feature總結

離散特徵處理方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結