跨語言詞向量筆記7. 無監督跨語言詞向量

種子詞典的推導

本文完全來自於Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings

在基於單詞映射求跨語言詞向量的方法中，很多工作都試圖在保持學到的映射可靠性的情況下，減少所需要的監督信號。一些工作發現即便只使用數詞和不同語言間拼寫相同的單詞也可以學到可用的映射關係，另一些工作用的甚至是完全無監督的方法，其背後通常是生成式對抗網絡網絡（GAN）或者迭代最近點算法（iterative closest point, ICP）。所有算法的目的都可以看做是學習一個線性變換來最小化目標分佈和源分佈之間的散度

大多數使用無監督方法學習跨語言詞向量的方法都分成兩步。第一步使用GAN或ICP等方法產生一個種子詞典，第二步則是使用這個種子詞典做之前的映射算法（例如普式分析）。即映射算法還是有監督的，只不過不再人工製造種子詞典，而是無監督學出一個種子詞典。在這兩步之間，還需要一個重要的啓發式算法，引導如何選取詞對來構造種子詞典。本章第一節主要介紹種子詞典的推導方法，第二節介紹精化和相關的啓發式方法，第三章介紹當前無監督方法存在的問題。需要注意的是，無監督方法是目前跨語言詞向量學習這一方向研究的重點，進展日新月異，因此本文的調研是不完備的

種子詞典的推導

很多無監督方法使用的種子詞典推導過程看上去都像是在煉丹，反直覺，但是很有趣。不過需要注意的是，推出種子詞典只是邁出了一小步，後面的精化和啓發式方法有時候能明顯地化腐朽爲神奇

基於GAN的方法

基於GAN的方法中，最典型也最出名的是MUSE[Conneau2018]，其使用一個帶線性生成器的原始GAN來學習嵌入空間之間的對齊。在一個有兩名參與者的遊戲中，判別器 $D$ 試圖區分兩個嵌入空間，而生成器 $G$ 試圖通過將源語言空間映射到目標語言空間來欺騙判別器（這也是生成器的訓練目標）

生成器可以是任何可微函數 $G_w$ ，在本文中，其具體表現形式是一個線性映射 $\boldsymbol{W}^{s\rightarrow t}$ ，目標使其選擇的 $\boldsymbol{W}^{s\rightarrow t}$ 可以讓輸出 $\boldsymbol{W}^{s\rightarrow t}\boldsymbol{X}^s$ 的分佈儘可能接近 $\boldsymbol{X}^t$ 。判別器可以看做是一個形式爲 $D_w:\mathcal{X} \rightarrow \{0,1\}$ 的函數，在MUSE中是一個多層感知機，其任務是區分 $\boldsymbol{W}^{s\rightarrow t}\boldsymbol{X}^s$ 和 $\boldsymbol{X}^t$ 。由於對於任何向量 $\boldsymbol{x}$ ，我們知道是 $\boldsymbol{x} \in \boldsymbol{X}^s$ 還是 $\boldsymbol{x} \in \boldsymbol{X}^t$ ，因此對 $N$ 個來自於 $\boldsymbol{X}^s$ 的樣本和 $N$ 個來自 $\boldsymbol{X}^t$ 的樣本，可以計算判別器的損失函數，並更新判別器的參數：
$w \leftarrow w + \alpha\sum_{i=1}^N \nabla \left[\log( D_w(\boldsymbol{X}_i^t)) + \log (1-D_w(\boldsymbol{W}^{s \rightarrow t}\boldsymbol{X}_i^s))\right]$
生成器的損失函數就是判別器的相反數

整個GAN的參數 $(G_w, D_w)$ 通過求解如下最大-最小問題得出
$\min_{G_w}\max_{D_w} \mathbb{E}\left[\log( D_w(\boldsymbol{X}^t)) + \log (1-D_w(G_w(\boldsymbol{X}_i^s)))\right]$
如果生成器在大量樣本上都能戰勝理想的判別器，則 $\boldsymbol{X}^t$ 和 $\boldsymbol{W}^{s\rightarrow t}\boldsymbol{X}^s$ 可以看做是很相近的，Jensen-Shannon散度比較小，也就是模型學到了真實的分佈。假設數據的真實分佈爲 $p_{\rm data}$ ，生成器製造的數據分佈爲 $p_G$ ，則根據GAN原始論文的引理，有

如果 $G$ 和 $D$ 有足夠強的表示能力，而且在訓練的每一步判別器都能在給定 $G$ 的情況下都能達到最優解，對 $p_G$ 的更新又可以提高
$\mathbb{E}_{\boldsymbol{x} \sim p_{\rm data}}\left[\log D_G^\ast (\boldsymbol{x})\right] + \mathbb{E}_{\boldsymbol{x} \sim p_{\rm data}}\left[\log (1-D_G^\ast (\boldsymbol{x}))\right]$
則 $p_G$ 收斂於 $p_{\rm data}$

但理想的結果通常依賴於若干在現實中無法成立的假設，例如生成器的表示能力有限，且實際更新的時生成器的參數而非 $p_G$ ，因此在實踐中通常是優化 $k$ 步判別器，再優化一步生成器。儘管這樣的做法在實踐中有時是足夠的，但是原始GAN的天花板仍然不可忽視。此外，實驗表明MUSE非常不穩定，不同的初始化可以對映射準確率造成非常大的差異

基於ICP的方法

通過映射的方法無監督學習跨語言詞向量，也可以看做是一個“點雲配準問題”，而這個問題常用ICP算法求解。和GAN一樣，ICP也非常依賴初始化結果，而且大部分點雲配準問題的解法都依賴若干已知完全正確的對齊結果，因此這樣的做法也算是遊走在有監督學習和無監督學習之間。此外，ICP容易陷入局部最優，已有算法僅用來解決二維或三維點雲配準，而且效率比較低。具體做法可以參看[Hoshen2018]

其它方法

如前所述，GAN的目標是縮小 $p_{\rm data}$ 和 $p_G$ 之間的散度。但是如果散度變大，梯度會變小，最終消失，使得生成器無法從梯度下降中學到東西。這種現象稱爲模型崩塌（model collapse）。爲此，可以使用Wassersten GAN（WGAN），這種模型的梯度更加平滑（其梯度近乎線性），而且當其用於跨語言詞向量訓練時，可以避免“中樞焦點”hub的存在（MUSE使用了一種啓發式算法來做到這一點，在後面討論）。更進一步地，可以使用CT-GAN來改善WGAN的性能。這一系列工作（在本書成書時）最新可以參考[Xu2018]。此外，還有一些工作使用了圖匹配問題的Gold-Rangarajan鬆弛函數及其對應的Frank-Wolfe算法來求解（圖匹配問題本身是NP完全的）

精化與啓發式算法

如前所述，大部分通過無監督學習跨語言詞嵌入的方法都是分兩步走的，在引入種子詞典以後需要用有監督的方式學習最終嵌入。第二部有時稱爲精化步驟，可以使用前面提到的所有基於詞對齊的方法。實踐中大部分人使用普氏分析，很大程度上都是因爲受了MUSE[Conneau2018]的影響。下面對MUSE繼續介紹，這種方法具體分爲以下幾步

單語詞嵌入 使用單語詞嵌入訓練方法獲得源語言和目標語言的詞嵌入 $\boldsymbol{X}^s$ 和 $\boldsymbol{X}^t$
對抗映射 按照前面的介紹，使用GAN訓練一個翻譯矩陣 $\Omega$
精化（普氏分析） 使用得到的 $\Omega$ 可以構造一個小的高頻詞雙語詞典，然後對這個詞典剪枝，僅保留那些滿足雙向翻譯性質的詞對。通過求解正交普氏問題，可學到在這些高頻詞對上可用的新的翻譯矩陣 $\Omega$
$\begin{aligned} \Omega^\ast = \mathop{ {\rm arg}\min}_{\boldsymbol{W}^{s\rightarrow t}}\|\boldsymbol{W}^{s\rightarrow t}&\boldsymbol{X}^s - \boldsymbol{X}^t\|_{\rm Frob} = \boldsymbol{UV}^\mathsf{T} \\ {\rm s.t.}\ \boldsymbol{U\Sigma V}^\mathsf{T} &={\rm SVD}\left(\boldsymbol{X}^t{\boldsymbol{X}^s}^\mathsf{T}\right) \end{aligned}$
新的 $\Omega$ 會得到新的種子詞對，新的種子詞對也會得到新的 $\Omega$ ，這個方法要求作爲錨點的高頻翻譯對要儘可能可靠
跨域相似度局部縮放（cross-domain similarity local scaling, CSLS）作用是在高密度區域擴張，在低密度區域收縮，這樣可以算出更準確的最鄰近點，因此可以解決高維空間的中樞點問題。其計算方式爲
$\begin{aligned} {\rm CSLS}(\boldsymbol{Wx}^s, \boldsymbol{x}^t) &= 2\cos(\boldsymbol{Wx}^s, \boldsymbol{x}^t) - r^t(\boldsymbol{Wx}^s) - r^s(\boldsymbol{x}^t) \\ r^t(\boldsymbol{Wx}^s) &= \frac{1}{K}\sum_{\boldsymbol{x}^t \in \mathcal{N}^t(\boldsymbol{Wx}^s)}\cos(\boldsymbol{Wx}^s, \boldsymbol{x}^t) \end{aligned}$

其它一些方法使用了核技巧來直接將最大平均差異（maximum mean discrepancy, MMD）最小化。另外一些以[Artetxe2018]爲代表的的工作使用了隨機詞典：從一個相似度矩陣以概率 $1-p$ 隨機刪除元素得到種子詞典，而且在之後的普氏分析的每一個迭代都如此做。對於這樣的方法， $p$ 越小，每次得到的詞典越不同，因此可以逃離局部最優解。該文章的做法是每次迭代都稍微增大一點 $p$ ，形成模擬退火的效果：初始 $p=0.1$ ，每當損失值在若干步都不降時，將 $p$ 翻倍。[Hoshen2018]則是在做ICP之前先對數據做PCA，以加速訓練，增強魯棒性

無監督方法的侷限性

[Søgaard2018]給出了MUSE的三個侷限性

MUSE不能保證對所有語言對都能給出好的對齊結果。例如如果一個語言詞形態豐富，而且是dependency-marking（這個語言學術語實在找不到翻譯了）時，效果就不好
MUSE不能很好對齊來自不同領域的詞
MUSE不能很好對齊使用不同算法訓練出的詞向量

例如，MUSE可以近乎完美地對齊用fasttext在維基上訓出的英語-西班牙語詞向量，但是不能很好對齊如下幾種詞向量：1. 英語-愛沙尼亞語 2. 使用醫學語料訓練出的英語詞向量和使用維基訓出的西班牙語詞向量

此外，對一些比較難的語言對，MUSE有時可以學出可用的映射，但是有時候不行

無監督方法的效果還受其核心成分GAN能力的制約。一方面，如前所述，GAN有模型崩塌現象，另一方面，有時候向量空間之間不存在線性映射關係。最後，[Søgaard2018]指出使用不同算法在不同語言上訓出的嵌入基本很難對齊

參考文獻

[Conneau2018]: Alexis Conneau, Guillaume Lample, Marc’Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou. 2018. Word translation without parallel data. In Proc. of the 6th International Conference on Learning Representations (ICLR 2018).
[Hoshen2018]: Yedid Hoshen and Lior Wolf. 2018. Non-adversarial unsupervised word translation. In Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2018), pages 469–478.
[Xu2018]: Ruochen Xu, Yiming Yang, Naoki Otani, and Yuexin Wu. 2018. Unsupervised cross-lingual transfer of word embedding spaces. In Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2018), pages 2465–2474
[Artetxe2018]: Mikel Artetxe, Gorka Labaka, and Eneko Agirre. 2018b. A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proc. of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (ACL 2018), pages 789–798.
[Søgaard2018]: Anders Søgaard, Sebastian Ruder, and Ivan Vulić. 2018. On the limitations of unsupervised bilingual dictionary induction. In Proc. of Association for Computational Linguistics (ACL 2018), pages 778–788.

跨語言詞向量筆記7. 無監督跨語言詞向量