跨語言詞向量筆記3. 詞級別對齊方法

本文完全來自於Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings

使用平行數據的單詞級別對齊方法

所有方法可以分爲三類

  • 基於映射/投影的方法,其輸入是兩個在大規模單語語料上分別訓練的單詞表示,然後試圖從單詞對齊信息或雙語詞典中學出一個矩陣之間映射關係。這樣的方法最常見,且支持無監督/半監督學習
  • 人工混合法,其核心思路是如果某幾種語言有天然的混合語料,那麼直接在這樣的“單語”語料上訓練一個詞向量,實際就包含了若干不同語言單詞的表示。對於有些語言,這樣的混合預料是天然的(例如英語和西語);但是對於其他語言,需要人工構造這樣的混合語料
  • 聯合方法,將平行文本做輸入,聯合最小化源語言、目標語言的單語損失,和跨語言正則項

從優化策略角度來看,上述三種方法實際上是等價的

在開始正文之前,先要看兩個重要概念

  • 雙語詞典推導,這是目前最常用的對跨語言詞向量模型的評估方法。簡單說,給定NN個來自於目標語言的單詞w1s,,w1sw_1^s, \ldots, w_1^s,目標是爲每個wisw_i^s找到最合適的翻譯witw_i^t,通常是在共享的語義空間中找對應向量的最近鄰居,相似度使用餘弦距離
  • 集中度(hubness),是在高維空間中觀察到的一種現象,即某些點可能是很多其它點的最近鄰居。這種現象會影響跨語言詞向量模型的效果

基於映射的方法

目前最主流的方法。不同方法的區別可能體現在如下四個維度:映射方法種子詞典微調方法(refinement)和提取方法

映射方法

常見的映射方法有四類,以下分別介紹

迴歸方法

迴歸方法的核心思想是將源語言向量映射到目標語言向量空間,並最大化源語言向量和目標語言向量的相似度。這裏最有影響力的工作是[Mikolov2013],其受到的啓發是源單詞在源語言空間中的幾何分佈,經過一個適當的線性變換後,與翻譯後的單詞在目標語言空間中的幾何分佈很像,因此可以學出一個線性投影所使用的的轉換矩陣Wst\boldsymbol{W}^{s \rightarrow t},簡記爲W\boldsymbol{W}。使用5000個源語言中最常見的單詞,同時使用它們的翻譯一起做種子詞,可以通過SGD來最小化如下目標函數,學出W\boldsymbol{W}

ΩMSE=i=1nWxisxit2 \Omega_{\rm MSE} = \sum_{i=1}^n \|\boldsymbol{W}\boldsymbol{x}_i^s - \boldsymbol{x}_i^t\|^2

其中xis\boldsymbol{x}_i^s是源語言ss中第ii個種子詞的詞向量,xit\boldsymbol{x}_i^t同理。如果將向量組合成矩陣,引入Frobenius範數,則上述目標函數也可以寫成殘差矩陣的Frobenius範數平方形式

ΩMSE=WXsXtF2 \Omega_{\rm MSE} = \|\boldsymbol{W}\boldsymbol{X}^s - \boldsymbol{X}^t\|^2_F

等價於尋找線性等式組WXs=Xt\boldsymbol{W}\boldsymbol{X}^s = \boldsymbol{X}^t的最小二乘解。可以分析地解得W=XXt\boldsymbol{W} = \boldsymbol{X^\dagger}\boldsymbol{X}^t,其中X=(XsTXs)1XsT\boldsymbol{X}^\dagger = ({\boldsymbol{X}^s}^\mathsf{T}\boldsymbol{X}^s)^{-1}{\boldsymbol{X}^s}^\mathsf{T}X\boldsymbol{X}的僞逆

套用本文前面提出的框架,MSE映射法可以看做是優化如下目標函數

J=LSGNS(Xs)+LSGNS(Xt)1+ΩMSE(Xs,Xt,W)2 J= \underbrace{\mathcal{L}_{\rm SGNS}(\boldsymbol{X}^s) + \mathcal{L}_{\rm SGNS}(\boldsymbol{X}^t)}_1 + \underbrace{\Omega_{\rm MSE}(\underline{\boldsymbol{X}^s}, \underline{\boldsymbol{X}^t}, \boldsymbol{W})}_2

先是分別獨立優化兩個單語損失,然後保持單語嵌入不變,優化正則項。[Mikolov2013]工作的一大常見預處理方法是對單語詞嵌入向量做歸一化,使其爲單位向量

正交方法

正交方法在迴歸方法的基礎上限定轉換矩陣必須是正交的,即WTW=I\boldsymbol{W}^\mathsf{T}\boldsymbol{W} = \boldsymbol{I}。在該限制條件下,做SVD,即XtTXs=UΣVT{\boldsymbol{X}^t}^\mathsf{T}{\boldsymbol{X}^s} = \boldsymbol{U\Sigma V}^\mathsf{T}以後,可在O(V)O(|V|)時間有效求出結果W=VUT\boldsymbol{W} = \boldsymbol{VU}^{\mathsf{T}}正交法是映射方法中最常用的方法

典型方法(canonical)

該方法使用典型相關分析(Canonical Correlation Analysis, CCA)將兩個語言詞向量映射到一個新的共享空間,在新的空間最大化相關性。具體做法是爲兩個語言各自學習一個轉換矩陣Ws\boldsymbol{W}^{s\rightarrow}Wt\boldsymbol{W}^{t\rightarrow},然後轉換矩陣將原始向量投影進新的空間以後,就可以使用如下方法計算投影后向量的相關性

ρ(Wsxis,Wtxit)=cov(Wsxis,Wtxit)var(Wsxis)var(Wtxit) \rho(\boldsymbol{W}^{s\rightarrow}\boldsymbol{x}_i^s, \boldsymbol{W}^{t\rightarrow}\boldsymbol{x}_i^t) = \frac{ {\rm cov}(\boldsymbol{W}^{s\rightarrow}\boldsymbol{x}_i^s, \boldsymbol{W}^{t\rightarrow}\boldsymbol{x}_i^t)}{\sqrt{{\rm var(\boldsymbol{W}^{s\rightarrow}\boldsymbol{x}_i^s)}{\rm var}(\boldsymbol{W}^{t\rightarrow}\boldsymbol{x}_i^t)}}

之後最大化投影后向量之間的相關性

ΩCCA=i=1nρ(Wsxis,Wtxit) \Omega_{\rm CCA} = -\sum_{i=1}^n \rho(\boldsymbol{W}^{s\rightarrow}\boldsymbol{x}_i^s, \boldsymbol{W}^{t\rightarrow}\boldsymbol{x}_i^t)

整個目標函數套用之前的框架爲

J=LLSA(Xs)+LLSA(Xt)1+ΩCCA(Xs,Xt,Ws,Wt)2 J= \underbrace{\mathcal{L}_{\rm LSA}(\boldsymbol{X}^s) + \mathcal{L}_{\rm LSA}(\boldsymbol{X}^t)}_1 + \underbrace{\Omega_{\rm CCA}(\underline{\boldsymbol{X}^s}, \underline{\boldsymbol{X}^t}, \boldsymbol{W}^{s\rightarrow}, \boldsymbol{W}^{t\rightarrow})}_2

本方法的代表性工作爲[Faruqui2014]。[Artetxe2018]的工作認爲迴歸法、典型發和正交法之間存在高度近似關係,可以看做一套框架的不同實例

邊界方法(margin)

代表性工作爲[Lazaridou2015],在對源語言向量做映射後,該方法的目標是最大化正確翻譯與其它候選詞之間的邊界,以減少集中度。具體做法是提高正確翻譯單詞與源單詞詞向量的相似度,同時減少隨機單詞對之間的相似度,即
ΩMML=i=1njikmax{0,γcos(Wxis,xit)+cos(Wxis,xjt)} \Omega_{\rm MML} = \sum_{i=1}^n\sum_{j \not= i}^k \max\{0, \gamma - \cos(\boldsymbol{Wx}_i^s, \boldsymbol{x}_i^t) + \cos(\boldsymbol{Wx}_i^s, \boldsymbol{x}_j^t)\}

這裏重要的是選取合適的kk個負樣本,而比較明智的方法是選擇接近Wxis\boldsymbol{Wx}_i^s但是遠離xit\boldsymbol{x}_i^t的點(闖入點)。記使用闖入點爲負樣本的方法目標函數爲ΩMML-I\Omega_{\rm MML\text{-}I},則整個目標函數爲
J=LCBOW(Xs)+LCBOW(Xt)1+ΩMML-I(Xs,Xt,W)2 J= \underbrace{\mathcal{L}_{\rm CBOW}(\boldsymbol{X}^s) + \mathcal{L}_{\rm CBOW}(\boldsymbol{X}^t)}_1 + \underbrace{\Omega_{\rm MML{\text -}I}(\underline{\boldsymbol{X}^s}, \underline{\boldsymbol{X}^t}, \boldsymbol{W})}_2

種子詞典

種子詞典是基於映射的方法的另一個核心部分,常見的有三種種子詞典

  • 成品詞典,即已經定義好的詞典。這種詞典常見於早期方法,而後期方法的改進方向主要在減少所需的種子詞對。[Artetxe2017]將這個數字減少到了25
  • 弱監督方法,即使用同源詞、數詞或拼寫相同的詞做種子詞典
  • (完全無監督的)學習法,這是近年來新的研究趨勢,將在後面文章中具體介紹

微調

微調的作用是改善初始種子詞典的質量。代表性工作有[Vulić2016],方法是首先根據已有的跨語言嵌入模型學出一個共享的雙語嵌入空間,從中取出最常見的若干源語言單詞的翻譯,然後作爲第二輪映射學習的種子詞。爲了保證提取出來的翻譯是可靠的,本文提出了一個對稱限定:假設源語言單詞wsw^s在跨語言嵌入空間中對應的向量是xs\boldsymbol{x}^s,其翻譯wtw^t的向量是xt\boldsymbol{x}^t,只有兩個向量互相是對方最鄰近的向量時,這個翻譯單詞對才被保留下來。這樣做是爲了減少集中度,也被後續很多依賴於微調的無監督方法所使用。原書中提出的其它方法這裏不贅述

提取

大部分已有工作,都是在跨語言嵌入空間中根據餘弦距離,來取源單詞向量最接近的目標語言向量,將其對應的單詞作爲源單詞的翻譯。但是也有一些工作使用了其它的方法。有代表性的一個是[Conneau 2018]其提出的方法簡寫爲CSLS,全稱爲“跨領域相似度局部放縮”(Cross-domain Similarity Local Scaling),定義爲
CSLS(Wxs,xt)=2cos(Wxs,xt)rt(Wxs)rs(xt) {\rm CSLS}(\boldsymbol{Wx}^s, \boldsymbol{x}^t) = 2\cos (\boldsymbol{Wx}^s, \boldsymbol{x}^t)- r^t(\boldsymbol{Wx}^s) - r^s(\boldsymbol{x}^t)

其中rtr^t是目標語言單詞與其鄰居的平均相似度,定義爲
rt(Wxs)=1KxtNt(Wxs)cos(Wxs,xt) r^t(\boldsymbol{Wx}_s) = \frac{1}{K}\sum_{\boldsymbol{x}^t \in \mathcal{N}^t(\boldsymbol{Wx}^s)}\cos(\boldsymbol{Wx}^s, \boldsymbol{x}^t)

其中Nt(Wxs)\mathcal{N}^t(\boldsymbol{Wx}^s)是源語言單詞投影的鄰居。從直覺上看,CSLS增加了孤立點的相似度,降低了聚集點的相似度,因此能明顯提升退出的雙語詞典的準確度,在近年工作中已經逐漸取代了使用最近鄰提取翻譯單詞的方法。本部分內容對無監督詞向量對齊有重要意義,因此在後續相關部分會繼續介紹

通過改造法(retrofitting)求跨語言嵌入

使用詞級別的監督信號(例如從詞典或者諸如BabelNet這樣的多語言知識庫),學習兩個未對齊的單語言嵌入空間之間的映射關係,也可以看做是一個“改造”問題[Faruqui2015]。其思想是將語義詞典中得來的知識注入到預訓練的分佈式詞嵌入中。改造法是要試圖創建一個新的詞嵌入矩陣X^\hat{\boldsymbol{X}},其中每個向量x^i\hat{\boldsymbol{x}}_i既要靠近對應的單語單詞向量xi\boldsymbol{x}_i,還要靠近它在知識圖譜中的鄰居x^j\hat{\boldsymbol{x}}_j,即
Ωretro=i=1V[αix^ixi2+(i,j)Eβijx^ix^j2] \Omega_{\rm retro} = \sum_{i=1}^{|V|}\left[\alpha_i \|\hat{\boldsymbol{x}}_i - \boldsymbol{x}_i\|^2 + \sum_{(i,j) \in E} \beta_{ij} \|\hat{\boldsymbol{x}}_i - \hat{\boldsymbol{x}}_j\|^2\right]

其中EE是知識圖譜中的邊,α\alphaβ\beta控制兩項對最終結果的貢獻度

這意味着,這種方法沒有使用翻譯矩陣,而是使用的單詞之間的限制關係來將單詞映射到一個新的跨語言空間。雖然這些限制條件能捕獲到比線性變換更復雜的關係,但是原始的後處理改造法受到的最大的限制是,只能注意到語義詞典中包含的單詞,難以泛化到那些在外部語義數據庫中觀察不到的詞——即只有那些在外部源中有着高質量詞典信息的詞會被更新,但是其它單詞卻不能感受到陽光的溫暖。因此對應的改進工作會在對那些有豐富外部信息的單詞做微調之後,再使用這些單詞原來的向量和其改造過的結果做訓練對,學出一個全局的轉換函數。具體做法可以是用一個深度前饋神經網絡,也可以是使用對抗訓練方法。進一步地,[Glavaš2018]將這兩部合成了一步,使用外部信息直接學出了一個全局的轉換函數

人工混合法

一些方法使用種子雙語詞典中包含的詞對齊信息,將單語語料中的某些詞隨機替換爲它們的翻譯,就構成了一個人工混合的雙語混合語料。這個方法由[Xiao2014]提出。[Gouws2015]是把源語言和目標語言的語料拼起來,對每個單詞以概率12kt\frac{1}{2k_t}將其替換爲對應的翻譯,其中ktk_t是該單詞可以對應的翻譯個數。[Duong2016]則是在CBOW訓練時在線將每個中心詞替換成其翻譯。對於多義詞,該工作使用基於EM的方法,按照如下方式選取對應的翻譯witw_i^t

wit=argmaxwτ(wis)cos(xis+xss,x) w_i^t = \mathop{\rm arg \max}_{w' \in \tau(w_i^s)} \cos (\boldsymbol{x}_i^s + \boldsymbol{x}_s^s, \boldsymbol{x}')

其中xis\boldsymbol{x}_i^s是中心詞的向量,xss\boldsymbol{x}^s_s是其窗口內上下文單詞的向量之和,τ(wis)\tau(w_i^s)表示源單詞所有可能的翻譯

該工作使用了PanLex作爲其種子詞典,該項目涵蓋了非常多的語言,但是噪聲也比較大

聯合方法

前面介紹的方法總體來看落入兩個套路:一個套路是,先優化一個單語損失,然後優化一個跨語言正則項(基本就是基於映射的方法的套路);另一個套路是,優化一個單語損失,然後隱式地優化一個跨語言正則項(通常是通過操作數據)。所謂“聯合方法”,顧名思義是同時聯合優化單語和跨語言目標函數

[Klementiev2012]將學習跨語言詞向量轉化成一個多任務學習問題。在該項工作中,單語目標函數是經典的語言模型目標函數,記CC爲目標詞前面上文單詞個數,有
L=logP(wiwiC+1:i1) \mathcal{L} = -\log P(w_i|w_{i-C+1: i-1})

對跨語言正則項,先要獲得一個對齊矩陣Ast\boldsymbol{A}^{s \rightarrow t}(可以用GIZA++或其它類似工具獲得)。跨語言正則項引導模型將Ast\boldsymbol{A}^{s \rightarrow t}中經常被對齊的一對詞看做是相似的
Ωs=i=1Vs12xisT(AstI)xis \Omega_s = -\sum_{i=1}^{|V|^s}\frac{1}{2}{\boldsymbol{x}_i^s}^\mathsf{T}(\boldsymbol{A}^{s\rightarrow t}\otimes \boldsymbol{I})\boldsymbol{x}_i^s
這裏I\boldsymbol{I}是恆等矩陣,\otimes是矩陣的克羅內克乘積。模型最終的優化項是Ωs\Omega_s和對應的Ωt\Omega_t的和。上式實際上是內積的加權平均值(權重是詞對齊得分),因此對單位長度的詞嵌入,等價於最大化對齊單詞對的餘弦相似度之和。整個方法的總優化函數爲
J=L(Xs)+L(Xt)+Ω(Ast,Xs)+Ω(Ats,Xt) J = \mathcal{L}({\boldsymbol{X}_s}) + \mathcal{L}(\boldsymbol{X}_t) + \Omega(\underline{\boldsymbol{A}^{s\rightarrow t}}, \boldsymbol{X}_s) + \Omega(\underline{\boldsymbol{A}^{t\rightarrow s}}, \boldsymbol{X}_t)

[Vyas2016]的方法則是基於矩陣分解,學到的是稀疏的跨語言詞向量,記爲S\boldsymbol{S}。該方法提出了兩個限制,第一個限制是從預訓練單語詞嵌入矩陣引入單語稀疏表示,做法是將每個嵌入矩陣X\boldsymbol{X}分解爲兩個矩陣S\boldsymbol{S}E\boldsymbol{E},並引入1\ell_1正則項
L=i=1VSiETXi22+λSi1 \mathcal{L} = \sum_{i=1}^{|V|}\|\boldsymbol{S}_i\boldsymbol{E}^\mathsf{T} - \boldsymbol{X}_i\|_2^2 + \lambda \|\boldsymbol{S}_i\|_1

第二個限制也是基於一個從GIZA++得來的對齊矩陣Ast\boldsymbol{A}^{s \rightarrow t},要最小化平行語料中被強對齊的單詞對之間的2\ell_2重構誤差
Ω=i=1Vsj=1Vt12λxAijstSisSjt22 \Omega = \sum_{i=1}^{|V^s|}\sum_{j=1}^{|V^t|}\frac{1}{2}\lambda_x\boldsymbol{A}_{ij}^{s\rightarrow t}\|\boldsymbol{S}_i^s - \boldsymbol{S}_j^t\|_2^2

文章的預訓練詞向量來自於GloVe,因此整個目標函數爲
J=LGloVe(Xs)+LGloVe(Xt)1+L(Xs,Ss,Es)+L(Xt,St,Et)+Ω(Ast,Ss,St)2 J= \underbrace{\mathcal{L}_{\rm GloVe}(\boldsymbol{X}^s) + \mathcal{L}_{\rm GloVe}(\boldsymbol{X}^t)}_1 + \underbrace{\mathcal{L}(\underline{\boldsymbol{X}^s}, \boldsymbol{S}^s, \boldsymbol{E}^s) + \mathcal{L}(\underline{\boldsymbol{X}^t}, \boldsymbol{S}^t, \boldsymbol{E}^t) + \Omega( \underline{\boldsymbol{A}^{s \rightarrow t}}, \boldsymbol{S}^s, \boldsymbol{S}^t)}_2

[Guo2015]也是使用源語言單詞嵌入和各單詞與其翻譯的對齊概率來構建目標語言單詞嵌入
xit=wjtτ(wis)Ai,jAi,xjt \boldsymbol{x}_i^t = \sum_{w_j^t \in \tau(w_i^s)}\frac{\boldsymbol{A}_{i,j}}{\boldsymbol{A}_{i,\cdot}} \cdot \boldsymbol{x}_j^t

對於OOV單詞,該工作使用編輯距離來找出詞形態上可能比較接近的單詞。對於OOV的源單詞wksw_k^s,其對應目標單詞的嵌入爲
xkt=1EkwsEkxt \boldsymbol{x}_k^t = \frac{1}{E_k}\sum_{w^s \in E_k} \boldsymbol{x}^t
其中xt\boldsymbol{x}^t是源單詞wsw^s的對應目標單詞的嵌入表示,Ek={wsEditDist(wks,ws)χ}E_k = \{w^s|{\rm EditDist}(w_k^s, w^s) \le \chi\}χ\chi的經驗值爲1

映射法、聯合法和人工混合法有時是等價的

首先回顧一下SGNS(SkipGram Negative Sampling)的目標函數

P(wk+jwk)=logσ(x~wk+jTxwk)+i=1NEwiPnlogσ(x~wiTxwk) P(w_{k+j}|w_k) = \log \sigma\left(\tilde{\boldsymbol{x}}_{w_{k+j}}^\mathsf{T}\boldsymbol{x}_{w_k}\right) + \sum_{i=1}^N \mathbb{E}_{w_i \sim P_n}\log\sigma\left(-\tilde{\boldsymbol{x}}_{w_i}^\mathsf{T}\boldsymbol{x}_{w_k}\right)

這個式子的意思是,假設中心詞ww的向量爲x\boldsymbol{x},其上下文某個單詞cc的向量爲x~\tilde{\boldsymbol{x}},則wwcc的上下文出現的概率是P(cw)=σ(x~Tx)P(c|w) = \sigma\left(\tilde{\boldsymbol{x}}^\mathsf{T}\boldsymbol{x}\right),其中σ\sigma是sigmoid函數。然後,採樣kk個負樣本,即對單詞cic_i,中心詞ww並未出現在其上下文中。假設真正的上下文CC包含了若干(wj,cj)(w_j, c_j)這樣的詞對,SGNS是要最大化真實中心詞-上下文出現的概率,最小化負樣本

然後,[Mikolov2013]的工作是怎樣獲得跨語言詞嵌入的呢?是在兩個不同語言各自的單語語料上同時運行SGNS,並施加了一個限制:如果根據某些詞典DD,某對單詞互爲對方的翻譯結果,那麼這兩個單詞需要有相同的表達。則可以稱這種方法爲受限的雙語SGNS(Constrained Bilingual SGNS),對源語言其目標函數爲
(wj,cj)Clogσ(x~jTxj)+i=1klogσ(x~iTxj)+ΩwD(wj)xjxj \sum_{(w_j, c_j) \in C}\log\sigma\left(\tilde{\boldsymbol{x}}_j^\mathsf{T}\boldsymbol{x}_j\right) + \sum_{i=1}^k \log\sigma\left(-\tilde{\boldsymbol{x}}_i^\mathsf{T}\boldsymbol{x}_j\right) + \Omega_{\infty}\sum_{w' \in D(w_j)}|\boldsymbol{x}_j - \boldsymbol{x}_j'|

目標語言的目標函數同理。這個方法是一種典型的聯合優化方法

接着回顧人工雙語語料的方法:從兩個語言的預料中抽樣句子,當遇到某個存在對應翻譯的單詞時(即D(w)D(w) \not= \varnothing),以一定概率將ww替換成從D(w)D(w)中隨機抽樣得到的翻譯結果,則當DD是[Xiao2014]提出的雙射時,如果施加如下限制:對從混合語料中抽取出來的單詞對w,c\langle w, c \ranglewwD(w)D(w)都收斂到相同的嵌入表示,則聯合優化法和人工雙語語料法是等價的。事實上,條件可以放寬到DD是任意雙射的情況(中間的證明比較囉嗦繁瑣,略去)。最終證明對任何受限的雙語SGNS模型,存在一個人工構成的雙語語料,使得通過該語料學習到一個雙語詞嵌入。另一方面,由於使用[Gouws2015]的方法構造的混合語料會在詞典提供的所有可能映射上做採樣,而詞典中的單詞分佈彼此類似,最終詞典中的每對單詞都會有同樣的向量表達,也就達到了受限雙語SGNS的效果。因此在前述限定條件下,人工構造的雙語語料法和受限雙語SGNS等價

接下來看映射法和聯合法之間的等價關係,其中映射法使用的是前面提到的改造法(retrofitting,[Faruqui2015])。該方法需要兩個預訓練單語詞向量,那麼假設詞向量使用SGNS訓練得出,訓練時的超參數爲Y\mathcal{Y}。改造法最小化的是兩項歐幾里得距離的加權和,其一爲種子單詞和對應翻譯之間的距離,其二爲種子單詞和其單語空間中鄰居之間的距離,權重α\alpha控制正則化的力度。當α\alpha達到無限大時,這意味着種子詞和其翻譯必須有同樣的嵌入表示,這和受限雙語SGNS的意圖相同

對於那些不在種子詞典裏的詞,按照改造法的原理,它們只被單語目標影響,而單語目標也是受限雙語SGNS目標的一部分。也就是說,如果改造法和受限雙語詞向量使用同樣的Y\mathcal{Y},且設定改造法的正則係數α=Ω\alpha=\Omega_\infty,則改造法和受限雙語詞向量等價

(後面更數學的證明略)

使用可比較數據的詞級別對齊方法

不需要平行數據,只需要可比較數據做詞對齊的方法,可以分爲兩類

  • 基於語言基礎(language grounding)的方法通常要藉助語言學之外的單詞共現信息,例如使用圖像或者眼球跟蹤數據等等。前者比較好理解,例如自行車這個東西在各個語言中都指向同樣的實體,只不過叫法不同,因此使用不同語言標註的圖片可以達到詞對齊效果。其它也有工作在探尋如何學習多模態多語言表示,不過就目前看,這些多模態信號更適合作爲文本信息的補充,而非獨立的信息來源
  • 基於可比較的特徵(comparable features),例如詞性標註等。[Gouws2015]在構建人工雙語語料時的策略是看源單詞的詞性標註,將其替換爲目標語言中相同詞性的另一個單詞。另一些工作則是將上下文相同詞性的單詞做替換,不過這種做法有一個很強的假設,就是兩個語言的詞序應該一致。此外,如果做一個非常簡單的假設,即每個詞性的所有單詞分佈一樣,每個單詞都只屬於一種詞類,則這個方法等價於人工混合語料法

參考文獻

  • [Mikolov2013]: Tomas Mikolov, Quoc V. Le, and Ilya Sutskever. 2013. Exploiting similarities among languages for machine translation. CoRR, abs/1309.4168.
  • [Faruqui2014]: Manaal Faruqui and Chris Dyer. 2014. Improving vector space word representations using multilingual correlation. In Proc. of the 14th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2014), pages 462–471.
  • [Artetxe2018]: Mikel Artetxe, Gorka Labaka, and Eneko Agirre. 2018a. Generalizing and improving bilingual word embedding mappings with a multi-step framework of linear transformations. In Proc. of the 32nd AAAI Conference on Artificial Intelligence (AAAI 2018), pages 5012–5019.
  • [Lazaridou2015]: Angeliki Lazaridou, Georgiana Dinu, and Marco Baroni. 2015. Hubness and pollution: Delving into cross-space mapping for zero-shot learning. In Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (ACL 2015), pages 270–280.
  • [Artetxe2017]: Mikel Artetxe, Gorka Labaka, and Eneko Agirre. 2017. Learning bilingual word embeddings with (almost) no bilingual data. In Proc. of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (ACL 2017), pages 451–462.
  • [Vulić2016]: Ivan Vulić and Anna Korhonen. 2016. On the role of seed lexicons in learning bilingual word embeddings. In Proc. of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (ACL 2016), pages 247–257.
  • [Conneau2018]: Alexis Conneau, Guillaume Lample, Marc’Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou. 2018. Word translation without parallel data. In Proc. of the 6th International Conference
    on Learning Representations (ICLR 2018)
    .
  • [Faruqui2015]: Manaal Faruqui, Jesse Dodge, Sujay K. Jauhar, Chris Dyer, Eduard Hovy, and Noah A. Smith. 2015. Retrofitting word vectors to semantic lexicons. In Proc. of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2015), pages 1606–1615.
  • [Glavaš2018]: Goran Glavaš and Ivan Vulić. 2018. Explicit retrofitting of distributional word vectors. In Proc. of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long
    Papers) (ACL 2018)
    , pages 34–45.
  • [Xiao2014]: Min Xiao and Yuhong Guo. 2014. Distributed word representation learning for cross-lingual dependency parsing. In Proc. of the 18th Conference on Computational Natural Language Learning (CoNLL 2014), pages 119–129.
  • [Gouws2015]: Stephan Gouws and Anders Søgaard. 2015. Simple task-specific bilingual word embeddings. In Proc. of North American Chapter of the Association for Computational Linguistics (NAACL 2015).
  • [Duong2016]: Long Duong, Hiroshi Kanayama, Tengfei Ma, Steven Bird, and Trevor Cohn. 2016. Learning crosslingual word embeddings without bilingual corpora. In Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2016), pages 1285–1295.
  • [Klementiev2012]: Alexandre Klementiev, Ivan Titov, and Binod Bhattarai. 2012. Inducing crosslingual distributed representations of words. In Proc. of the 24th International Conference on Computational Linguistics (COLING 2012), pages 1459–1474.
  • [Vyas2016]: Yogarshi Vyas and Marine Carpuat. 2016. Sparse bilingual word representations for crosslingual lexical entailment. In Proc. of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2016), pages 1187–1197.
  • [Guo2015]: Jiang Guo, Wanxiang Che, David Yarowsky, Haifeng Wang, and Ting Liu. 2015. Cross-lingual dependency parsing based on distributed representations. In Proc. of the 53rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (ACL 2015), pages 1234–1244.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章