論文筆記（NLP）——Sentiment Classification using Document Embeddings trained with Cosine Similarity

原創

2020-05-25 23:53

1. Abstract

Document embedding將每個文檔映射到連續向量空間中一個密集的低維的向量。本文提出了使用餘弦相似度（cosine similarity）代替點積（dot product）來訓練document embedding。
數據集：IMDB
實驗表明：

與dot product相比，使用cosine similarity可以提高準確性；
將naive bayes的n-grams袋的feature combination加權使用可以達到97.42%的準確率。

2. Introduction

本文的重點是對於長電影評論進行二分類（positive和negative），對於文檔表示的選擇往往比分類器的選擇更重要。文本表示旨在將可變長度的文本映射到固定長度的向量，以作爲分類器的有效輸入。document embedding模型將每一個文檔映射成一個密集的實值向量。
本文旨在通過cosine similarity代替dot product訓練document embedding改進現有的document embedding模型。例如，給定一篇文章，在預測words/n-grams時最大化cosine similarity而不是dot product。
使用cosine similarity的兩個動機：

cosine similarity是一種正則化機制
cosine similarity在相似性度量中廣泛使用

3. Proposed Model

本文的模型在PV-DBOW和DV-ngram上進行了改進：

PV-DBOW：段落向量的分佈式詞袋版本（Distributed Bag of Words version of Paragraph Vector）用來訓練預測段落中的單詞。
DV-ngram：預測n-grams的文檔向量（Document Vector by predicting n-grams），DV-ngram訓練段落向量不僅可以預測段落中的word，還可以預測n-gram。

目標函數： $\sum_{d∈D}\sum_{w_o∈W_d}-\log p(w_o|d)$ softmax: $p(w_o|d) =\frac{e^{\alpha\cosθ_{w_o}}}{\sum_{w∈W}e^{\alpha\cosθ_w}}$
學習Document embedding的網絡架構：

對於非常大的vocabularies，上述目標函數的更新非常耗時，所以採用Negative Sampling： $\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(\alpha\cos\theta_{w_o})-\sum_{w_n∈W_{neg}}\log\sigma(-\alpha\cos\theta_{w_n})]$
本文將對比cosine similarity、dot product和L2R dot product的效果。
dot product： $\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(v_d^Tv_{w_o})-\sum_{w_n∈W_{neg}}\log\sigma(-v_d^Tv_{w_n})]$ L2R dot product: $\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(v_d^Tv_{w_o})+\frac\lambda2||v_d||^2+\frac\lambda2||v_{w_o}^2||-\sum_{w_n∈W_{neg}}(\log\sigma(-v_d^Tv_{w_n})+\frac\lambda2||v_{w_n}||^2)]$