Cross-Domain Review Helpfulness Prediction based on Convolutional Neural Networks with Auxiliary Domain Discriminators
Abstract
問題:如何估計評論的有用性並將其恰當地推薦給消費者(review helpfulness prediction)
當前方法缺點:每個域需要大量的標註數據。每個域之間是封閉的,當在某些域數據非常少、out-of-vocabulary問題時,需要每個域包含大量標註數據。
本文提出基於CNN的模型來利用word-level和character-based表達,解決oov問題。並通過遷移域之間的知識,解決部分領域標註數據較少問題。具體方法是域之間提取公有特徵,域類提取私有特徵,在這兩個特徵空間上學習相應的任務,這應該是參考了adversarial specific-shared network,對跨域數據同時建模。在亞馬遜公開評論數據集上,文中方法在準確性和跨領域穩健性方面顯著優於sota。
Introduction
如何估計評論的有用性並將其恰當地推薦給消費者(review helpfulness prediction),目前的一些方法依賴於手工提取特徵,例如LIWC,INQUIRER和GALC等語義特徵(Yang et al.,2015; Martin and Pu,2010),基於aspect的(Yang et al.,2016)和基於argument特徵(Liu et al.,2017a)。然而,這些方法存在一些問題:
- 需要大量的標記樣本去更好的訓練模型。這在現實某些情況下是不實際的,
- 且生成的模型僅適用於當前類別/領域,很難遷移到標註數據有限的領域。
- 對於標註數據少的領域,很難訓練一個好的模型,
- 而且經常會觀察到“out-of-vocabulary”(OOV)問題。
而本文提出的( cross-domain transfer learning (TL) )方法,不需要領域知識和手工提取特徵。提出基於CNN的模型來利用word-level和character-based表達,解決oov問題。並通過遷移域之間的知識,解決部分領域標註數據較少問題。具體方法是域之間提取公有特徵,域類提取私有特徵,在這兩個特徵空間上學習相應的任務,這應該是參考了adversarial specific-shared network,對跨域數據同時建模。
例如,評價中包含圖像質量的特徵只對相機品類有用,而語義特徵和argument-based對所有域都有用。因此需要學習 shared features, private features
(Ganin et al., 2016; Taigman et al., 2017)最早使用 shared and domain-specific features。最近 Liu et al. (2017b) and Chen et al. (2017)添加了對抗損失和domain discriminators並應用於分類和分詞任務。
Model
本文將問題定義爲一個迴歸問題來擬合多少比例的用戶認爲這個評論是有用的。在源領域(某些產品類別)有大量數據,目標領域有較少的標籤數據(目標預測產品類別),希望用源領域幫助學習目標領域下的評論排序。
CNN with Character Representations
使用CNN來提取word-level和character-based表達,不同點在於character-based。
character-based
把評論文本句子中的每個詞拆解成字符然後再組合一起輸入到一個卷積層(convolutional layer)和一個最大池化層(max-pooling layer)去學習出一個定長的字符嵌入(character embedding)。
最後合併生成的詞嵌入和字符嵌入,一起作爲輸入到卷積神經網絡。
Knowledge Transfer with Domain Discriminators
shared neural network and domain-specific neural networks to learn shared and domain-specific features
使用ASP-MTL網絡結構,使用cnn作爲基礎的特徵提取器。 domain-specific output layers:
其中k是域的標籤,表明數據來源於目標域還是源域。其中****分別表示 shared-source, shared-target, source, and target domains參數。
引入對抗損失:
它的輸入是共享特徵,即讓模型學出與領域無關的共享特徵。
domain discrimination losses:同時作者添加了判別領域的任務加入到了模型中,作者爲每一個字添加域的標籤,並加入預測,添加損失:
其中是目標域每個輸入的domain-specific features。是源域。
orthogonality constraints:
詳細見:Adversarial Multi-task Learning for Text Classification
Experiments
在Amazon的評論數據上面測試本文的模型,包含Watches,Phone,Outdoor,Home,和Electronics五個領域。
Comparison with hand-crafted features and ensemble features
和現有的五種人爲構造特徵的方法(STR,UGR,LIWC,INQ,ASP)[Yang et al.,2015]做了對比,同時對比了兩個集成模型[Yang et al.,2016]。
- 基礎的CNN模型在這個任務裏效果非常好,比任何一種單獨特徵的方法好,效果和集成模型比較接近。
說明CNN的模型有非常好的領域自適應性,即不需要很多特徵工程就可以適用於很多的領域。
Comparison with TL models
對比了三種方法:
- 僅用源領域數據(src-only),
- 僅用目標領域的數據(tgt-only),
- 對抗的遷移學習模型[liu et al., 2017b]
實驗結論:
- 僅用目標領域數據的效果會比僅用源領域的效果好,這說明源領域和目標領域有領域的差異(domain gap)。
- 遷移學習的方法會比僅用目標領域的數據效果好,這個說明遷移學習對於目標領域有幫助。
- 我們提出的模型比現有的遷移學習框架效果好,特別是在數據小的領域提升比較明顯。
目標域數據量對TL的影響:同時作者去實驗目標域的數據量大小,發現:
- 僅使用10%或者30%目標領域數據的情況下,遷移帶來的提升越明顯,說明我們的遷移學習的方法對於訓練數據越少的目標領域幫助越大。
- 在全量的目標數據上(100%),我們的方法反而出現了略微的效果的降低。這個說明如果目標領域數據足夠的話,其實僅用目標領域數據就可以訓練一個不錯的模型,這個時候遷移學習帶來的收益比較微小。
Reference
- https://mp.weixin.qq.com/s/8e3L7WmC6T5gDKWzzXqNvA
- Cross-Domain Review Helpfulness Prediction …