Bilingual Sentiment Embeddings: Joint Projection of Sentiment Across Languages論文筆記

前言

這篇文章主要是爲了做跨語言的情感分析,提出了一種embedding的方法。
核心思想就是將兩種不同的語言映射到同一個向量空間上。這樣只需要一個標註好情感label的source language,一個雙語詞典L,每種語言的embedding,就可以對target language做情感分類。

模型

Cross-lingual Projection

對於source language和target language,分別有一個向量空間在這裏插入圖片描述
v表示詞彙表的長度,d表示embedding的維度。
爲了將S和T映射到雙語空間
在這裏插入圖片描述
需要有線性投影矩陣M和M’
在訓練過程中,對於詞典L中的每一對翻譯對,首先查找它們的相關向量,通過它們的相關投影矩陣投影它們,最後最小化兩個投影向量的均方誤差
在這裏插入圖片描述
在這裏插入圖片描述
Zi是Si的embedding和矩陣M的點積。target language那邊的計算也是一樣。

Sentiment Classification

第二個訓練目標是通過優化projected source vectors來預測source短語的情感標籤,這就不可避免地改變了矩陣M,從而也改變了M’,於是就可以在沒有用target language訓練的情況下預測target language的情感標籤。
需要source language標註好的語料:
在這裏插入圖片描述在這裏插入圖片描述
xi是sentence,yi是label
對於分類,使用two-layer feedforward averaging network,對於句子Xi,取S中的word embedding,取平均得到ai,然後將ai與M點積得到zi
在這裏插入圖片描述
zi再通過一個softmax層得到預測標籤
在這裏插入圖片描述
最小化交叉熵:
在這裏插入圖片描述

在這裏插入圖片描述

Joint Learning

將投影與分類聯合起來:
在這裏插入圖片描述

Target-language Classification

預測的時候,對於target句子,取到它們的word embedding,然後平均得到ai,再點積M’,映射到 bilingual space,通過一層softmax得到預測標籤。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章