跨語言詞向量筆記8. 有助益的數據和工具

跨語言詞向量筆記8. 有助益的數據和工具

本文完全來自於Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings。(本系列筆記跳過了原書的第10章“評估方法和應用場景”,這一章傳遞的最核心的意思是,跨語言詞向量的意義應該是有助於知識跨語言的遷移。如果訓練出了很好的語言ss和語言tt的雙語詞向量,那麼在ss上訓練的神經網絡只需要將輸入嵌入矩陣換成tt的嵌入矩陣,網絡應該仍然有很好的效果)

單語資源

跨語種數據

  • BabelNet,覆蓋了284種語言的雙語百科詞典,同時具有一定的語義網功能
  • PanLex,一個龐大的詞典數據庫,同時也提供一些詞語翻譯功能。號稱覆蓋5700種語言,但是網站內容純度略堪憂
  • OPUS,開放的平行語料庫
  • 23種語言,253個語言對的維基數據。注意文檔之間並非嚴格對齊的翻譯關係,只是原書提到的“可比較數據”

跨語言詞向量模型

大部分都是給出訓練用的代碼。比較有名的包括

(本小節沒有列出原書給出的全部工作)

評估工具

此外,可以使用前面提供的跨語詞典或機器翻譯工具(如Google Translate)來評估學到的雙語詞典的質量

目前重建巴別塔最大的阻礙還是缺少跨語系語言的雙語評估數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章