1. Abstract
Document embedding將每個文檔映射到連續向量空間中一個密集的低維的向量。本文提出了使用餘弦相似度(cosine similarity)代替點積(dot product)來訓練document embedding。
數據集:IMDB
實驗表明:
- 與dot product相比,使用cosine similarity可以提高準確性;
- 將naive bayes的n-grams袋的feature combination加權使用可以達到97.42%的準確率。
2. Introduction
本文的重點是對於長電影評論進行二分類(positive和negative),對於文檔表示的選擇往往比分類器的選擇更重要。文本表示旨在將可變長度的文本映射到固定長度的向量,以作爲分類器的有效輸入。document embedding模型將每一個文檔映射成一個密集的實值向量。
本文旨在通過cosine similarity代替dot product訓練document embedding改進現有的document embedding模型。例如,給定一篇文章,在預測words/n-grams時最大化cosine similarity而不是dot product。
使用cosine similarity的兩個動機:
- cosine similarity是一種正則化機制
- cosine similarity在相似性度量中廣泛使用
3. Proposed Model
本文的模型在PV-DBOW和DV-ngram上進行了改進:
- PV-DBOW:段落向量的分佈式詞袋版本(Distributed Bag of Words version of Paragraph Vector)用來訓練預測段落中的單詞。
- DV-ngram:預測n-grams的文檔向量(Document Vector by predicting n-grams),DV-ngram訓練段落向量不僅可以預測段落中的word,還可以預測n-gram。
目標函數:softmax:
學習Document embedding的網絡架構:
對於非常大的vocabularies,上述目標函數的更新非常耗時,所以採用Negative Sampling:
本文將對比cosine similarity、dot product和L2R dot product的效果。
dot product:L2R dot product:
4. Experiments
實驗結果對比:
每個實驗都執行了5次取平均
超參數對比: