本文完全來自於Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings。(本系列筆記跳過了原書的第10章“評估方法和應用場景”,這一章傳遞的最核心的意思是,跨語言詞向量的意義應該是有助於知識跨語言的遷移。如果訓練出了很好的語言和語言的雙語詞向量,那麼在上訓練的神經網絡只需要將輸入嵌入矩陣換成的嵌入矩陣,網絡應該仍然有很好的效果)
單語資源
- 多語分佈式詞向量,以及40種語言的wiki dump(需科學上網,而且詞向量最近一次更新是在2013年了)
- 23種語言的維基語料,XML格式
- 英、法、德、意語單語語料(10億單詞量級)
- fastText單語詞向量(294種語言)
跨語種數據
- BabelNet,覆蓋了284種語言的雙語百科詞典,同時具有一定的語義網功能
- PanLex,一個龐大的詞典數據庫,同時也提供一些詞語翻譯功能。號稱覆蓋5700種語言,但是網站內容純度略堪憂
- OPUS,開放的平行語料庫
- 23種語言,253個語言對的維基數據。注意文檔之間並非嚴格對齊的翻譯關係,只是原書提到的“可比較數據”
跨語言詞向量模型
大部分都是給出訓練用的代碼。比較有名的包括
- VecMap (ACL 2018)、Ruder的擴展版本,基於隱變量
- 對78種語言fastText詞向量的對齊工作,其中英語是中樞語言 (ICLR 2017)
- 無監督方法的代表MUSE
- BiSkip
- BilBOWA
(本小節沒有列出原書給出的全部工作)
評估工具
- SemEval 2017,基於詞向量相似度
- ACL 2016的工作,對內涵評估和外延評估都有涉及
- 85種語言的treebank
- 基於跨語言詞向量的無監督機器翻譯:UNdreaMT (ICLR 2018)、Monoses (EMNLP 2018)、FAIR的無監督機器翻譯工作 (EMNLP 2018)
此外,可以使用前面提供的跨語詞典或機器翻譯工具(如Google Translate)來評估學到的雙語詞典的質量
目前重建巴別塔最大的阻礙還是缺少跨語系語言的雙語評估數據