跨語言詞向量筆記8. 有助益的數據和工具

原創

2020-07-06 11:45

跨語言詞向量筆記8. 有助益的數據和工具

本文完全來自於Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings。（本系列筆記跳過了原書的第10章“評估方法和應用場景”，這一章傳遞的最核心的意思是，跨語言詞向量的意義應該是有助於知識跨語言的遷移。如果訓練出了很好的語言 $s$ 和語言 $t$ 的雙語詞向量，那麼在 $s$ 上訓練的神經網絡只需要將輸入嵌入矩陣換成 $t$ 的嵌入矩陣，網絡應該仍然有很好的效果）

單語資源

多語分佈式詞向量，以及40種語言的wiki dump（需科學上網，而且詞向量最近一次更新是在2013年了）
23種語言的維基語料，XML格式
英、法、德、意語單語語料（10億單詞量級）
fastText單語詞向量（294種語言）

跨語種數據

BabelNet，覆蓋了284種語言的雙語百科詞典，同時具有一定的語義網功能
PanLex，一個龐大的詞典數據庫，同時也提供一些詞語翻譯功能。號稱覆蓋5700種語言，但是網站內容純度略堪憂
OPUS，開放的平行語料庫
23種語言，253個語言對的維基數據。注意文檔之間並非嚴格對齊的翻譯關係，只是原書提到的“可比較數據”

跨語言詞向量模型

大部分都是給出訓練用的代碼。比較有名的包括

（本小節沒有列出原書給出的全部工作）

評估工具

SemEval 2017，基於詞向量相似度
ACL 2016的工作，對內涵評估和外延評估都有涉及
85種語言的treebank
基於跨語言詞向量的無監督機器翻譯：UNdreaMT (ICLR 2018)、Monoses (EMNLP 2018)、FAIR的無監督機器翻譯工作 (EMNLP 2018)

此外，可以使用前面提供的跨語詞典或機器翻譯工具（如Google Translate）來評估學到的雙語詞典的質量

目前重建巴別塔最大的阻礙還是缺少跨語系語言的雙語評估數據

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

跨語言詞向量筆記8. 有助益的數據和工具

跨語言詞向量筆記8. 有助益的數據和工具

單語資源

跨語種數據

跨語言詞向量模型

評估工具

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

跨語言詞向量筆記9. 挑戰與未來研究方向

跨語言詞向量筆記8. 有助益的數據和工具

跨語言詞向量筆記1. 序言與分類方法

跨語言詞向量筆記5. 文檔級別對齊方法

跨語言詞向量筆記3. 詞級別對齊方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結