WORD TRANSLATION WITHOUT PARALLEL DATA ICLR2018

WORD TRANSLATION WITHOUT PARALLEL DATA ICLR2018

Alexis Conneau∗ † ‡ , Guillaume Lample∗ † § , Marc’Aurelio Ranzato† , Ludovic Denoyer§ , Herve J ´ egou ´ †

 

現在詞翻譯都依賴平行語料,本模型則是不需要,本無監督模型的效果甚至在語言差距大的語言如中英文之間的詞對齊也是良好的的。

 

引言

學習分佈式單詞表示的最成功方法(如Mikolov等人(2013c;a);彭寧頓等(2014);Bojanowski等人(2017))依賴於Harris(1954)的分佈假說,該假說認爲,發生在相似上下文中的單詞往往具有相似的含義。Goldberg(2014)的研究表明,Mikolov等人(2013c)採用負抽樣的跳變圖相當於分解一個詞與上下文共現矩陣,其中的條目是各自的詞與上下文對的點態互信息。利用詞的共現統計量,可以得到反映語義相似性和差異性的詞向量:相似的詞在嵌入空間上相近,反之亦然

我們的方法利用對抗訓練來學習從源到目標空間的線性映射,並分兩步操作。首先,在一個兩人遊戲中,一個鑑別器被訓練來區分映射的源嵌入和目標嵌入,而映射(可以看作一個生成器)被聯合訓練來愚弄鑑別器。其次,我們從生成的共享嵌入空間中提取一個合成字典,並使用schonemann(1966)的封閉形式procrustes解決方案對映射進行微調。¨由於該方法不受監督,因此不能使用跨語言數據來選擇最佳模型。

 

模型

學習W矩陣,滿足

Mikolov et al. (2013b)提出模型

詞的對齊是根據映射後的空間餘弦相似度

 

2.1 DOMAIN-ADVERSARIAL SETTING

在這一節中,我們提出了我們的領域對抗學習方法W(無跨語言監督)。設X = {x1,…, xn}, Y = {y1,…, ym}是分別來自源語言和目標語言的n組和m組單詞嵌入。一個模型被訓練來區分從WX = {wx1,…, W xn}和Y。我們稱這個模型爲鑑別器。訓練W防止鑑別器做出準確的預測。因此,這是一個兩個人蔘與的遊戲,鑑別器的目標是最大化其識別嵌入源的能力,而W的目標是通過使WX和Y儘可能相似來防止鑑別器這樣做。這種方法與Ganin et al.(2016)的工作相一致,他提出學習輸入域不變的潛在表示,在我們的例子中,一個域由一種語言(源或目標)表示。

本文訓練定義了鑑別器,鑑別器鑑別單詞的來源

設計了映射器

學習階段:使用對抗學習思想。

2.2 提純過程

對抗學習學出了W,效果雖好,經過提純,提升結果。

爲了改進我們的映射,我們使用剛剛通過對抗性訓練學習到的W構建了一個合成的並行詞彙表。具體來說,我們考慮最頻繁的單詞,只保留相互最近的鄰居,以確保高質量的詞典。隨後,我們將(2)中的Procrustes解決方案應用於生成的字典。考慮到Procrustes算法生成的改進解,可以生成更精確的字典並迭代應用該方法,類似於Artetxe et al.(2017)。然而,由於使用對抗性訓練得到的合成字典已經很強大,我們只觀察到在進行多次迭代時的小改進,即,單詞翻譯任務的改進通常低於1%。

 

2.3 CROSS-DOMAIN SIMILARITY LOCAL SCALING (CSLS)

:源空間單詞映射後的最接近詞集合

:目標詞與鄰居的平均相似度

則定義

直觀地說,這個更新增加了與孤立單詞向量相關的相似性。相反,它減少了分佈在密集區域的向量。實驗表明,CSLS在不需要任何參數調整的情況下,顯著提高了單詞翻譯檢索的準確性。

 

實驗結果

 結論:

採用對抗學習思想學習詞的映射,學習一個映射函數,使得源詞在目標空間映射的向量表示和目標空間無法分辨出來,學習一個

分辨器,分辨出單詞是那個來源。學習出映射函數之後,再經過提純,提高模型效果。

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章