谷歌提出XTREME:評估跨語言的大規模多語言多任務基準

據估計,如今地球上有 6000 多種語言,我們窮其一生也不可能通曉那麼多語言。那麼,如何理解罕見語言呢?有不少科學家正在研究如何利用人工智能使用這些語言工作,XTREME 便是其中之一。

自然語言處理面臨的主要挑戰是構建這樣一套系統:不僅能用英語,而且也能用世界上所有約 6900 多種語言工作。雖然世界上大多數語言都沒有足夠的數據來單獨訓練健壯的模型,但幸運的是,許多語言確實共享了相當多底層結構。

在詞彙層面,語言中經常會有同源詞,比如英語中的“desk”和德語的“tisch”,都是來自於拉丁文的“discus”。同樣,許多語言也以相似的方式標記語義角色,例如在漢語和土耳其語中,使用介詞來標記時空關係。

在自然語言處理中,爲了克服數據稀疏性問題,有許多方法利用多語言的共享結構進行訓練。從歷史上看,這些方法大多集中於用多種語言執行特定任務。過去幾年,在深度學習進步的推動下,試圖學習通用多語言表示(如 mBERT、XLM、XLM-R)方法的數量有所增加,這些方法旨在獲取跨語言共享知識,這些知識對許多任務都是有用的。然而,在實踐中,對這些方法的評估大多集中在一小部分任務上,並且針對相似的語言。

爲了鼓勵對多語言學習進行更多研究,我們發表了論文《XTREME:用於評估跨語言泛化的大規模多語言多任務基準》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)。XTREME 涵蓋了 40 種不同類型的語言(跨 12 個語系),包括 9 個任務,這些任務都需要對不同層次的語法或語義進行推理。選擇 XTREME 中的語言是爲了最大限度地提高語言多樣性、現有任務的覆蓋率和訓練數據的可用性。

在這些語言中,還有許多尚未充分研究的語言,如 達羅毗荼語系(Dravidian languages)泰米爾語(Tamil)(印度南部、斯里蘭卡和新加坡語言)、泰盧固語(Telugu)和馬拉雅拉姆語(Malayalam)(印度南部語言),以及 尼日爾 - 剛果語系(Niger–Congo languages)斯瓦希里語(Swahili)和約魯巴語(Yoruba)(非洲語言)。我們提供了代碼和數據,包括運行各種基準的示例,可在 GitHub 上獲得。

地址:https://github.com/google-research/xtreme

XTREME 任務和語言

XTREME 中包含的任務涵蓋了一系列範式,包括文檔分類、結構化預測、文獻檢索和問答系統。因此,爲了使模型在 XTREME 基準測試上取得成功,它們必須學習泛化到許多標準跨語言遷移設置的表示法。

XTREME 基準測試中支持的任務

每個任務都包含 40 種語言的一個子集。爲了獲得更多用於 XTREME 分析的低資源語言數據,我們將自然語言推理(XNLI)和問答系統(XQuAD)這兩個具有代表性任務的測試集從英語自動翻譯成其他語言。我們的實驗表明,在這些任務中使用翻譯後的測試集的模型表現出了與使用人類標記的測試集相當的性能。

零樣本評估

要評估使用 XTREME 的性能,首先必須對模型進行多語言文本的預訓練,並使用鼓勵跨語言學習的目標。然後,對特定任務的英語數據進行微調,因爲英語是最有可能提供標籤數據的語言。然後,XTREME 評估這些模型的零樣本跨語言傳輸性能,也就是說,在沒有特定任務數據的其他語言上對這些模型進行評估。如下圖所示,三個步驟的過程,包括從預訓練到微調再到零樣本遷移。

針對給定模型的跨語言遷移學習過程:對多語言文本進行預訓練,然後對下游任務進行英語微調,最後使用 XTREME 進行零樣本評估。

在實踐中,這種零樣本設置的好處之一是計算效率:預訓練模型只需對每個任務的英語數據進行微調,然後就可以直接在其他語言上進行評估了。不過,對於有其他語言的標籤數據的任務,我們也會在語言數據上進行微調對比。最後,我們通過獲得所有 9 個 XTREME 任務的零樣本得分來提供一個綜合得分。

遷移學習的測試平臺

我們使用幾種較優的預訓練多語言模型進行實驗,包括 multilingual BERT,一種流行的 BERT 模型的多語言擴展:XLM 和 XLM-R,兩個更大的多語言 BERT 版本,以及大規模多語言機器翻譯模型 M4。這些模型有一個共同特點,就是它們已經對來自多語言的大量數據進行了預訓練。在我們的實驗中,我們選擇了這些模型的變體,這些變體在大約 100 種語言上進行了預訓練,其中包括基準測試的 40 種語言。

我們發現,儘管模型在大多數現有英語任務上實現了接近人類的表現,但在其他許多語言上的表現卻明顯低於人類。在所有模型的結構化預測和問答系統任務中,英語的表現與其他語言的表現差距最大,而在結構化預測和文檔檢索中,不同語言的結果分佈最大。

爲說明這一點,在下圖中,我們按任務和語言的不同,顯示了在所有語系中表現最好的模型 XLM-R 在零樣本設置中的情況。不同任務之間的得分沒有可比性,所以主要關注的應該是不同任務之間語言的相對排名。正如我們所看到的,許多高資源的語言,特別是印歐語系的語言,其排名一直較高。相比之下,該模型在其他語系,如漢藏語系、日本 - 琉球語系、朝鮮語系、尼日爾 - 剛果語系等語言上的表現較差。

XTREME 中所有任務和語言在零樣本設置下的最佳表現模型 XLM-R 的性能。所報的分數是基於特定任務的度量標準的百分比,在不同任務中並不能直接比較。人類的表現(如果有的話)以紅星表示,每種語系的具體示例均以其 ISO 639-1 編碼表示。

總的來說,我們進行了一些有趣的觀察。

  • 在零樣本設置中,M4 和 mBERT 在大多數任務中都能與 XLM-R 競爭,而在特別有挑戰性的問答系統任務中,後者的表現要優於它們。例如,在 XQuAD 上,XLM-R 的得分爲 76.6,而 mBERT 和 M4 的得分分別爲 64.5 和 64.8,在 MLQA 和 TyDi QA 上也有類似的得分差距。
  • 我們發現,使用機器翻譯的基準,無論是翻譯訓練數據還是測試數據,都非常有競爭力。在 XNLI 任務中,mBERT 在零樣本設置中得分爲 65.4,而在使用翻譯訓練數據時得分爲 74.0。
  • 我們觀察到,少樣本設置(即使用有限數量的語言內標記數據,如果可用的話)對於較簡單的任務(如命名實體識別)特別有競爭力,但對於較複雜的問答系統任務來說,作用不大。這一點可從 mBERT 的表現中看出,在少樣本設置中,mBERT 在命名實體識別任務上的表現提到了 42%,得分從 62.2 提高到 88.3,但對於問答系統任務(TyDi QA),只提高了 25%(得分從 59.7 提高到 74.5)。
  • 總的來說,在所有模式和環境中,英語與其他語言的表現仍存在較大差距,這說明跨語言遷移的研究仍然有很大的潛力。

跨語言遷移分析

與之前關於深度模型的泛化能力的觀察類似,我們發現,與具有更多預訓練數據的 XLM-R 相比,如果一種語言有更多的預訓練數據可用,如 mBERT,那麼結果就會有所改善。然而,我們發現,這種相關性對於結構化預測任務、詞性(part-of-speech,POS)標記和命名實體識別(named entity recognition,NER)來說並不成立,這表明當前的深度預訓練模型無法充分利用預訓練數據遷移到這類語法任務中。我們還發現,模型在遷移到非拉丁文腳本時存在困難。這在詞性標記任務上表現得尤爲明顯,mBERT 在西班牙語上的零樣本正確率爲 86.9,而在日語上的零樣本正確率僅爲 49.2。

對於自然語言推理任務 XNLI,我們發現,模型對一個英語測試實例和另一種語言的同一個測試實例進行預測,大約有 70% 的時間,模型會做出相同的預測。半監督的方法可能有助於提高實例預測與它們在不同語言翻譯之間的一致性。我們還發現,這些模型很難預測英語訓練數據中沒有出現的詞性標記序列,因爲它們是在英語訓練數據上進行微調的,這凸顯了這些模型很難從用於預訓練的大量未標記數據中學習其他語言的語法。對於命名實體識別,模型在語言距離很大的英語訓練數據中沒有出現的實體時最困難:印尼語(Indonesian)和斯瓦西里語(Swahili)的正確率分別爲 58.0 和 66.6,而葡萄牙語(Portguese)和法語(French)的正確率分別爲 82.3 和 80.1。

多語言遷移學習研究進展

儘管英語只佔世界人口的 15% 左右,但它一直是自然語言處理領域最新進展的焦點。我們相信,在深度上下文表示的基礎上,我們現在有了工具,可以在服務於世界上其他語言的系統上取得實質性的進展。我們希望,XTREME 能夠推動多語言遷移學習的研究,就像 GLUE 和 SUperGLUE 這樣的基準模型如何推動深度單語言模型的發展一樣,包括 BERT、RoBERTa、XLNet、AIBERT 等。

作者簡介:

Melvin Johnson,Google Research 高級軟件工程師。

Sebastian Ruder,DeepMind 研究科學家。

原文鏈接:

https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章