Artetxe - 2019ACL - Bilingual Lexicon Induction through Unsupervised Machine Translation

Bilingual Lexicon Induction through Unsupervised Machine Translation


這是2019年ACL的一篇文章,這篇是在facebook小哥第一篇文章的基礎上做的改進,主要用來生成雙語詞典,效果更好一些。

文章鏈接:

Bilingual Lexicon Induction through Unsupervised Machine Translation

代碼鏈接:

https://github.com/artetxem/monoses

知識點

  1. 從輸入詞嵌入中得到了短語embeddings,然後使用產生的跨語言短語嵌入來構建一個短語表,接着生成基於短語的機器翻譯系統,最後用生成的翻譯系統做翻譯來生成雙語詞典。
  2. 其他方法是先生成詞典再生成翻譯系統,而此方法是先生成翻譯系統再生成詞典。

摘要

最近的一項研究在雙語詞彙歸納方面取得了良好的成果,該研究將兩種語言中獨立訓練的詞嵌入對齊,並通過最近鄰或相關檢索方法使用產生的跨語言詞嵌入誘導詞翻譯對。在這篇論文中,我們基於最近的無監督機器翻譯工作提出了一種替代方法來解決這個問題。我們不是直接從跨語言詞嵌入中歸納出雙語詞彙。我們使用它們來構建一個短語集,並將其與語言模型結合起來,然後使用生成的機器翻譯系統生成一個合成的平行語料庫,然後使用統計詞彙對齊技術從其中提取雙語詞彙。因此,我們的方法適用於任何詞嵌入和跨語言映射技術,並且它不需要任何額外的資源,除了單語語料庫用於訓練詞嵌入。當在完全相同的跨語言詞嵌入上進行評估時,我們提出的方法比最近鄰平均提高6個精度點,比CSLS檢索平均提高4個精度點,在標準的MUSE數據集上取得了新的 state-of-the-art 效果。

介紹

跨語言詞嵌入映射近年來引起了廣泛的關注。這些方法通過獨立地培訓不同語言中的詞嵌入,並通過線性轉換將它們映射到共享空間。雖然早期的方法需要一個訓練字典來找到初始對齊,但完全無監督的方法已經成功地獲得了基於對抗性訓練或自學習的可比較的結果(前面博客中介紹的方法)。

這些方法的一個突出應用是雙語詞彙歸納法(BLI),即使用產生的跨語言嵌入來構建一個雙語詞典。爲了達到這個目的,我們通常會通過獲取目標語言中相應的最近鄰來歸納每個源單詞的翻譯。然而,有人認爲這一基本方法存在缺陷,從而激發了其他檢索方法(facebook第一篇文章中介紹的方法)。

在本文中,我們更進一步,不是直接從跨語言詞嵌入中歸納出雙語詞典,而是使用它們來構建一個無監督的機器翻譯系統,並從與之產生的合成平行語料庫中提取出雙語詞典。這使我們能夠利用強大的語言模型,通過統計詞對齊自然地提取翻譯。同時,我們的方法可以替代傳統的檢索技術,因爲它可以處理任何跨語言的詞嵌入,它不需要任何額外的資源,除了用於訓練他們的單語語料庫。該方法取得了很好的效果,因此,我們的結論是,與最近的趨勢相反,未來的BLI研究不應該只專注於直接檢索方法。

方法介紹

我們方法的輸入是一組跨語言詞嵌入和用來訓練他們的單語語料庫。實驗中使用fastText詞嵌入,然後由VecMap(《 A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings》(2018ACL)中的方法)映射得到跨語言詞嵌入。

我們方法的總體思路是建立一個無監督的基於短語的統計機器翻譯系統(如facebook第三篇),並使用它生成一個合成的平行語料庫,從中提取雙語詞典。爲此,我們首先從輸入詞嵌入中得到短語embeddings,方法是取每種語言中40萬個最常見的二元組和40萬個最常見的三字母組,併爲其分配所包含單詞的質心。完成之後,我們使用產生的跨語言短語嵌入來構建一個短語表(《Unsupervised statistical machine translation》(2018EMNLP)中的方法)。更具體地說,我們通過提取每個源短語的100個最近鄰來提取候選翻譯詞,並用softmax函數對它們的餘弦相似性進行評分:

在這裏插入圖片描述
其中,溫度τ是使用在反向方向上引出的字典上的最大似然估計來估計的。除了兩個方向上的短語翻譯概率,我們還通過將目標短語中的每個單詞與最有可能生成它的源短語中的單詞對齊,並取其各自翻譯概率的乘積,來估計正向和反向詞彙加權。然後,我們將此短語表與目標語言語料庫中估計的失真模型和5-gram語言模型結合起來,從而生成基於短語的機器翻譯系統。爲了優化所得模型的權重,我們使用了Artetxe等人提出的無監督調整程序(《An effective approach to unsupervised machine translation》中的方法)(2019ACL)。它結合了循環一致性損失和每個單語語料庫中的2000個句子子集的語言建模損失。

完成上述操作,我們通過使用生成的機器翻譯系統 對源語言單語語料庫進行翻譯,來生成綜合平行語料庫。然後,我們使用 FastAlign帶有默認超參數和grow-diag-finaland對稱啓發式的方法 對這個語料庫做單詞對齊。最後,我們根據對齊的語料庫構建一個短語表,並通過丟棄所有非字母組合條目從中提取雙語詞典。對於具有多個詞條的單詞,我們根據其直接翻譯概率對翻譯候選者進行排名。

實驗設置

爲了將我們提出的方法與其他BLI方法進行面對面的比較,實驗設置需要固定單語言詞嵌入訓練方法,跨語言映射算法和評估字典。另外,爲了避免任何優勢,我們的方法不應看到比用於訓練單語嵌入所使用的語料 更進一步的單語語料。不幸的是,現有的BLI數據集僅發佈經過預訓練的詞嵌入,
而不是用來訓練他們的單語語料庫。因此,我們決定使用標準MUSE數據集中的評估詞典。但是,我們並沒有使用預先訓練好的Wikipedia詞嵌入,而是從維基百科中自己抽取單語語料庫並且訓練我們自己的詞嵌入,以儘可能地符合原始設置。這使我們可以在完全相同的條件下將我們提出的方法與以前的檢索技術進行比較,同時使我們的結果儘可能與MUSE數據集以前的工作報告結果具有可比性。

更具體地說,我們使用WikiExtractor從Wikipedia轉儲中提取純文本,並使用標準Moses工具對生成的語料庫進行預處理,方法包括句子拆分、標點符號規範化、帶有主動連字符拆分的標記化和小寫字母轉換。然後,我們使用帶默認超參數的跳躍圖fastText爲每種語言訓練詞嵌入,將詞彙表限制在200,000個最頻繁的標記詞中。MUSE數據集中的詞嵌入是使用這些完全相同的設置進行訓練的,因此我們的嵌入僅在用於提取訓練語料庫的Wikipedia轉儲和應用於它的預處理上有所不同,原始數據集中沒有對此進行記錄。完成此操作後,我們使用VecMap中的無監督模式將這些單詞嵌入映射到跨語言空間,該模式基於嵌入的語言內相似度分佈構建初始解決方案,並通過自學習迭代地改進它。最後,我們使用我們提出的方法歸納出雙語詞典,並與以前的檢索方法(標準最近鄰,反向最近鄰,反向softmax和CSLS)進行比較。按照慣例,我們使用precision at 1作爲我們的評估指標。

實驗結果

在這裏插入圖片描述在這裏插入圖片描述
上面的結果用的是facebook第一篇中詞對齊的數據集。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章