論文筆記(NLP)——Sentiment Classification using Document Embeddings trained with Cosine Similarity

1. Abstract

Document embedding將每個文檔映射到連續向量空間中一個密集的低維的向量。本文提出了使用餘弦相似度(cosine similarity)代替點積(dot product)來訓練document embedding。
數據集:IMDB
實驗表明:

  • 與dot product相比,使用cosine similarity可以提高準確性;
  • 將naive bayes的n-grams袋的feature combination加權使用可以達到97.42%的準確率。

2. Introduction

本文的重點是對於長電影評論進行二分類(positive和negative),對於文檔表示的選擇往往比分類器的選擇更重要。文本表示旨在將可變長度的文本映射到固定長度的向量,以作爲分類器的有效輸入。document embedding模型將每一個文檔映射成一個密集的實值向量。
本文旨在通過cosine similarity代替dot product訓練document embedding改進現有的document embedding模型。例如,給定一篇文章,在預測words/n-grams時最大化cosine similarity而不是dot product。
使用cosine similarity的兩個動機:

  • cosine similarity是一種正則化機制
  • cosine similarity在相似性度量中廣泛使用

3. Proposed Model

本文的模型在PV-DBOW和DV-ngram上進行了改進:

  • PV-DBOW:段落向量的分佈式詞袋版本(Distributed Bag of Words version of Paragraph Vector)用來訓練預測段落中的單詞。
  • DV-ngram:預測n-grams的文檔向量(Document Vector by predicting n-grams),DV-ngram訓練段落向量不僅可以預測段落中的word,還可以預測n-gram。

目標函數:dDwoWdlogp(wod)\sum_{d∈D}\sum_{w_o∈W_d}-\log p(w_o|d)softmax:p(wod)=eαcosθwowWeαcosθwp(w_o|d) =\frac{e^{\alpha\cosθ_{w_o}}}{\sum_{w∈W}e^{\alpha\cosθ_w}}
學習Document embedding的網絡架構:
在這裏插入圖片描述
對於非常大的vocabularies,上述目標函數的更新非常耗時,所以採用Negative Sampling:dDwoWd[logσ(αcosθwo)wnWneglogσ(αcosθwn)]\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(\alpha\cos\theta_{w_o})-\sum_{w_n∈W_{neg}}\log\sigma(-\alpha\cos\theta_{w_n})]
本文將對比cosine similarity、dot product和L2R dot product的效果。
dot product:dDwoWd[logσ(vdTvwo)wnWneglogσ(vdTvwn)]\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(v_d^Tv_{w_o})-\sum_{w_n∈W_{neg}}\log\sigma(-v_d^Tv_{w_n})]L2R dot product:dDwoWd[logσ(vdTvwo)+λ2vd2+λ2vwo2wnWneg(logσ(vdTvwn)+λ2vwn2)]\sum_{d∈D}\sum_{w_o∈W_d}[-\log \sigma(v_d^Tv_{w_o})+\frac\lambda2||v_d||^2+\frac\lambda2||v_{w_o}^2||-\sum_{w_n∈W_{neg}}(\log\sigma(-v_d^Tv_{w_n})+\frac\lambda2||v_{w_n}||^2)]

4. Experiments

實驗結果對比:
每個實驗都執行了5次取平均
在這裏插入圖片描述
超參數對比:
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

5. 源碼

https://github.com/tanthongtan/dv-cosine

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章