2020-06-06 nlp03之詞向量簡述

接上篇one-hot

one-hot與詞向量的分佈式表示的不同     舉個例子:

我們每天都在進步的one-hot表示

我們(1, 0, 0, 0, 0)      每天( 0, 1, 0, 0, 0)     都( 0, 0, 1, 0, 0)        在( 0, 0, 0, 1, 0)     進步( 0, 0, 0, 0, 1) 

詞向量的表示

我們(0.2, 0.1, 0.3, 0.5, 0.8)      每天( 0.5, 1.6, 0.4, 0.8, 0.1)     都( 0.165, 0.46, 0.21, 0.574, 0.5)        在( 0.3, 0.2, 0.1, 0.6, 0.4)     進步( 0.1, 0.2, 0.3, 0.4, 1.5)

 

one-hot與詞向量的分佈式表示之間的區別:

1、長度

one-hot的長度爲中文本中單詞的個數,爲200000個

詞向量的長度,通常爲100維-----300維, (可自定義,通過word2vec進行訓練,或者直接用騰訊已經訓練好的word2vec模型,我在工作中,使用騰訊的word2vec模型進行重新訓練,發現word2vec這種方式,產生出的詞向量,用於情感分析,效果有時候還不如tf-idf好。效果最好的屬於bert模型)

2、稀疏性

one-hot有一定的稀疏性

詞向量很稠密

 

理想中,詞向量代表單詞的意思

詞向量轉化成句子向量:

平均法:疊加後求均值

rnn/lstm 

 

word2vec的訓練方式,已經有很多篇相關的文章了,在後期再進行詳細介紹

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章