词向量与句向量概述

比较常见的词向量表示方式:glove、fasttext、wordRank、tfidf-BOW、word2vec

词向量一般看作是文档特征,不同词向量有不同用法,主要有四类词向量:1.hash算法及衍生;2.BOW算法延伸;3.word2vec延伸;4.LDA主题延伸

    一个词一列向量-----> hash算法--->word2vec(考虑上下文语境)

    一个词一个向量----->BOW算法-->LDA(考虑语言多义)

1.基本概念

一词一列向量hash将词打散成(01010101110)的数值。word2vec在打散的同时定义向量,还考虑了单词上下文语义,doc2vec额外考虑上下语句顺序(单词在段落中顺序),用在段落中比较好

一个词一个值(bow算法+词权重,LDA主题-词语矩阵)两者递进,LDA运算耗时,业界用的较少

2.词向量到句向量

1.如果是一词一列向量,一般用简单相加(相加被证明是最科学)求得句向量

2.如果一词一个向量,就用词权重组合成句向量方式

3.谷歌句向量sen2vec直接将句子变成列向量

句向量:对于短语或句子,将组成单词对应的所有词向量加起来,作为短语向量、句向量

3.词向量的额外效果

消除歧义:LDA主题模型-词句向量

结合上下文语境:word2vec

文档与文档间关系:bow+tfidf

一般来说,hash值效果稍微差一点,其他三类均不错

4.词向量应用方向

文本分类:BOW+TFIDF(TFIDF能较好区分不同文档),word2vec,LDA主题-词语向量(潜在语义发现)

文本相似性:word2vec(结合上下文语境,短文本效果良好)、LDA主题-词语向量(文档语义挖掘)

文本主题建模:LDA模型

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章