比較常見的詞向量表示方式:glove、fasttext、wordRank、tfidf-BOW、word2vec
詞向量一般看作是文檔特徵,不同詞向量有不同用法,主要有四類詞向量:1.hash算法及衍生;2.BOW算法延伸;3.word2vec延伸;4.LDA主題延伸
一個詞一列向量-----> hash算法--->word2vec(考慮上下文語境)
一個詞一個向量----->BOW算法-->LDA(考慮語言多義)
1.基本概念
一詞一列向量hash將詞打散成(01010101110)的數值。word2vec在打散的同時定義向量,還考慮了單詞上下文語義,doc2vec額外考慮上下語句順序(單詞在段落中順序),用在段落中比較好
一個詞一個值(bow算法+詞權重,LDA主題-詞語矩陣)兩者遞進,LDA運算耗時,業界用的較少
2.詞向量到句向量
1.如果是一詞一列向量,一般用簡單相加(相加被證明是最科學)求得句向量
2.如果一詞一個向量,就用詞權重組合成句向量方式
3.谷歌句向量sen2vec直接將句子變成列向量
句向量:對於短語或句子,將組成單詞對應的所有詞向量加起來,作爲短語向量、句向量
3.詞向量的額外效果
消除歧義:LDA主題模型-詞句向量
結合上下文語境:word2vec
文檔與文檔間關係:bow+tfidf
一般來說,hash值效果稍微差一點,其他三類均不錯
4.詞向量應用方向
文本分類:BOW+TFIDF(TFIDF能較好區分不同文檔),word2vec,LDA主題-詞語向量(潛在語義發現)
文本相似性:word2vec(結合上下文語境,短文本效果良好)、LDA主題-詞語向量(文檔語義挖掘)
文本主題建模:LDA模型