接上篇one-hot
one-hot與詞向量的分佈式表示的不同 舉個例子:
我們每天都在進步的one-hot表示:
我們(1, 0, 0, 0, 0) 每天( 0, 1, 0, 0, 0) 都( 0, 0, 1, 0, 0) 在( 0, 0, 0, 1, 0) 進步( 0, 0, 0, 0, 1)
詞向量的表示:
我們(0.2, 0.1, 0.3, 0.5, 0.8) 每天( 0.5, 1.6, 0.4, 0.8, 0.1) 都( 0.165, 0.46, 0.21, 0.574, 0.5) 在( 0.3, 0.2, 0.1, 0.6, 0.4) 進步( 0.1, 0.2, 0.3, 0.4, 1.5)
one-hot與詞向量的分佈式表示之間的區別:
1、長度
one-hot的長度爲中文本中單詞的個數,爲200000個
詞向量的長度,通常爲100維-----300維, (可自定義,通過word2vec進行訓練,或者直接用騰訊已經訓練好的word2vec模型,我在工作中,使用騰訊的word2vec模型進行重新訓練,發現word2vec這種方式,產生出的詞向量,用於情感分析,效果有時候還不如tf-idf好。效果最好的屬於bert模型)
2、稀疏性
one-hot有一定的稀疏性
詞向量很稠密
理想中,詞向量代表單詞的意思
詞向量轉化成句子向量:
平均法:疊加後求均值
rnn/lstm
word2vec的訓練方式,已經有很多篇相關的文章了,在後期再進行詳細介紹