Bilingual Sentiment Embeddings: Joint Projection of Sentiment Across Languages論文筆記

原創

2020-05-31 03:10

Bilingual Sentiment Embeddings論文筆記

前言

這篇文章主要是爲了做跨語言的情感分析，提出了一種embedding的方法。
核心思想就是將兩種不同的語言映射到同一個向量空間上。這樣只需要一個標註好情感label的source language，一個雙語詞典L，每種語言的embedding，就可以對target language做情感分類。

模型

Cross-lingual Projection

對於source language和target language，分別有一個向量空間
v表示詞彙表的長度，d表示embedding的維度。
爲了將S和T映射到雙語空間

需要有線性投影矩陣M和M’
在訓練過程中，對於詞典L中的每一對翻譯對，首先查找它們的相關向量，通過它們的相關投影矩陣投影它們，最後最小化兩個投影向量的均方誤差

Zi是Si的embedding和矩陣M的點積。target language那邊的計算也是一樣。

Sentiment Classification

第二個訓練目標是通過優化projected source vectors來預測source短語的情感標籤，這就不可避免地改變了矩陣M，從而也改變了M’，於是就可以在沒有用target language訓練的情況下預測target language的情感標籤。
需要source language標註好的語料：

xi是sentence，yi是label
對於分類，使用two-layer feedforward averaging network，對於句子Xi，取S中的word embedding，取平均得到ai，然後將ai與M點積得到zi

zi再通過一個softmax層得到預測標籤

最小化交叉熵：