跨語言詞向量筆記1. 序言與分類方法

跨語言詞向量筆記1. 序言與分類方法

本文完全來自於Anders Søgaard等人的著作[Søgaard2019]

提出跨語言詞向量的目的是在跨語言應用中表示各語言單詞詞義,並跨語言傳遞學到的知識。跨語言詞向量使得模型可以在多語言上下文中推理詞義,也可以計算不同語言單詞的相似度,有利於跨語信息提取。此外,由於跨語詞向量有助於跨語言傳遞學到的知識,因此當一門語言資源豐富,另一語言資源匱乏時,這種模型尤其重要。
需要注意的是,使用神經機器翻譯(NMT)也可以隱式地學到跨語言詞向量,而本文所提到的模型都是顯式學習跨語言詞向量,學習速度和效率都比NMT要快,代價更低。原書不僅對近五年(2014年-2019年)跨語言詞向量的學習方法做了一個全面的調研,同時還透過它們不同的表象揭示了它們相似的本源

本文所用記號

(本文所用記號與原文稍有不同,原文使用黑正體x\bf x代表向量,與大多數文章(包括維基詞條)一致。本文繼續使用黑斜體x\boldsymbol{x}代表向量,與花書保持一致)

  • XlRVl×d\boldsymbol{X}^l \in \mathbb{R}^{|V^l|\times d}LL個語言中第ll個語言的詞向量。VlV^l是該語言的詞彙表,dd是詞向量維度

  • Xi,:l\boldsymbol{X}_{i,:}^l,是Xl\boldsymbol{X}^l的第ii個單詞的詞向量,簡記爲xil\boldsymbol{x}_i^l。在不造成歧義的情況下,可以寫作xi\boldsymbol{x}_i。其對應的單詞爲wiw_i

  • 如果考慮單詞的上下文,假設有CC個上下文單詞,則分別記爲c1,,cCc_1, \ldots, c_C。如果某些詞向量訓練方法區分中心詞詞向量和上下文單詞詞向量,則上下文單詞詞向量分別記爲x~1,,x~C\tilde{\boldsymbol{x}}_1, \ldots, \tilde{\boldsymbol{x}}_C

  • 記源語言爲ss,目標語言爲tt,有些模型會訓練一個轉換矩陣,將源語言ss的詞向量Xs\boldsymbol{X}^s轉換爲目標語言詞向量。這個轉換矩陣記爲WstRd×d\boldsymbol{W}^{s \rightarrow t} \in \mathbb{R}^{d \times d}。在不引發歧義的情況下,簡寫爲W\boldsymbol{W}。這種方法一般會使用nn個詞和它們的翻譯做種子詞,產生一個從wisw_i^s到其翻譯witw_i^t的映射τ:VsVt\tau: V^s \rightarrow V^t。對應的產生多語詞向量的方法稱爲映射法

  • 有些模型需要單語ss中詞與詞的共現矩陣Cs\boldsymbol{C}^s,該矩陣的每一行對應一個單詞(中心詞)wisw^s_i,每一列對應一個上下文單詞wjsw_j^sCijs\boldsymbol{C}_{ij}^swiw_iwjw_j同時出現的次數。該方法通常還要規定一個窗口大小CC,只有當wjw_jwiw_i的距離不超過CC時,才說這兩個單詞出現過共現情況

  • 在跨語言上下文中,有一個對齊矩陣AstRVt×Vs\boldsymbol{A}^{s \rightarrow t} \in \mathbb{R}^{|V^t|\times |{V^s}|},每個元素Aijst\boldsymbol{A}_{ij}^{s \rightarrow t}表示語言tt中第ii個單詞與語言ss中第jj個單詞對齊的次數,每行都做一個歸一化,即矩陣中每行元素的和都爲1

  • 一些方法需要對齊的句子,此時記源語言ss的句子爲sent1s,,sentns{\rm sent}_1^s , \ldots, {\rm sent}_n^s,對應的表示爲y1s,,yns\boldsymbol{y}_1^s ,\ldots, \boldsymbol{y}_n^s (yRd\boldsymbol{y} \in \mathbb{R}^d);目標語言tt的句子爲sent1t,,sentnt{\rm sent}_1^t, \ldots, {\rm sent}_n^t,對應的表示爲y1t,,ynt\boldsymbol{y}_1^t ,\ldots, \boldsymbol{y}_n^t。如果涉及到文檔對齊,則分別爲doc1s,,docns{\rm doc}_1^s ,\ldots, {\rm doc}_n^sdoc1t,,docnt{\rm doc}_1^t ,\ldots, {\rm doc}_n^t。文檔各自的向量表示爲z1s,,zns\boldsymbol{z}_1^s, \ldots, \boldsymbol{z}_n^sz1t,,znt\boldsymbol{z}_1^t,\ldots, \boldsymbol{z}_n^t,有zRd\boldsymbol{z} \in \mathbb{R}^d

  • 訓練跨語言詞向量的方法都可以看做是最小化同一個目標函數
    J=L1++LL+Ω J = \mathcal{L}^1 + \ldots + \mathcal{L}^L + \Omega
    其中Ll\mathcal{L}^l是訓練第ll個語言單語詞向量的損失函數,Ω\Omega是正則項。文獻[Levy2014] [Levy2015]指出大部分訓練單語詞向量方法優化的目標函數都是互相等價的,而本文的一個貢獻是將不同方法的區別統一爲一個正則項Ω\Omega。不同方法的另一個區別是優化目標函數的手段不同。由於聯合優化多個非凸優化目標比較難,大部分方法都是在每一步只優化一個損失函數,保持其它的不變。因此有時目標函數會做進一步展開,例如
    J=L(Xs)+L(Xt)1+Ω(Xs,Xt,W)2 J= \underbrace{\mathcal{L(\boldsymbol{X}^s)} + \mathcal{L}(\boldsymbol{X}^t)}_1 + \underbrace{\Omega(\underline{\boldsymbol{X}^s}, \underline{\boldsymbol{X}^t}, \boldsymbol{W})}_2
    這裏表示第一步先優化前兩個損失函數,各自依賴於Xs\boldsymbol{X}^sXt\boldsymbol{X}^t(此時問題被分解爲兩個單語優化問題,實際上就是在單語語料上使用諸如CBOW、GloVe的方法訓練詞向量,對應原書第二章的內容,本文就不贅述了);第二步固定Xs\boldsymbol{X}^sXt\boldsymbol{X}^t不變,再優化Ω\Omega

跨語言詞向量建模方法分類

本書大部分內容討論了對有監督跨語言詞向量建模方法做分類時所考慮的兩個維度,分別是監督學習需要的對齊類型,以及對齊結果所編碼的語言之間進行比較的信息。根據以往的文獻,算法細節和模型結構並不重要,重要的是訓練所使用的數據,因此本文提出的分類方法主要基於數據需求,包括兩種:

  1. 對齊類型,即需要什麼樣的對齊數據。有的方法需要細粒度的、詞級別的信息,例如在各自上下文中,兩個單詞意思是否相同或相似;有的方法只需要對齊句子或者文檔即可
  2. 比較信息,即方法是需要平行的數據源(不同語言之間的翻譯),還是隻需要相似的文本就可以。對於後者,方法只需要相同主題的文檔,最典型是同一個維基百科詞條的不同語言頁面

特別地,對齊“信號”所寓居的文檔,按照粒度不同可分爲三級

  • 詞級別的對齊。大部分方法使用平行的詞對齊數據,這種數據可能是一個雙語/跨語詞典,或者高精度的單詞對齊信息。如果僅使用可比較的非平行語料,則可能要使用其它模態做輔助,例如圖像甚至眼球移動信息。無監督跨語言詞向量方法大部分也會落入到這個類別中,因爲這些方法的目標是從單語語料抽取種子詞對應關係,然後使用其它方法進行推斷,擴展到所有詞表上
  • 句級別的對齊。這種方法大多需要一個平行語料。如果要使用可比較的語料,則也需要一些其它模態的信息,例如圖像的題注
  • 文檔級別的對齊。文檔級別對齊的平行數據需要若干互譯的文檔,不過這種需求比較少,因爲如果文檔能對齊,通常句子也就能對齊了。一般只需要可比較的文檔級別對齊數據,這些數據可能是主題對齊的(例如維基百科)或者類別對齊的(例如情感分析或者多類別分類數據集)

本書完成之時,還沒有方法僅依靠意義相同的、文檔級別對齊的文本學出跨語言詞向量

參考文獻

[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings
[Ruder2017] Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. arXiv preprint arXiv:1706.04902.
[Levy2014] Levy, O., & Goldberg, Y. (2014). Neural word embedding as implicit matrix factorization. In Advances in neural information processing systems, NeurIPS 2014 (pp. 2177-2185).
[Levy2015] Levy, O., Goldberg, Y., & Dagan, I. (2015). Improving distributional similarity with lessons learned from word embeddings. Transactions of the Association for Computational Linguistics (TACL), 3, (pp. 211-225).

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章