跨語言詞向量筆記9. 挑戰與未來研究方向

跨語言詞向量筆記9. 挑戰與未來研究方向

本文完全來自於Anders Søgaard等人的著作[Søgaard2019] Søgaard, A., Vulić, I., Ruder, S., & Faruqui M. (2019). Cross-Lingual Word Embeddings

本書提出瞭如下幾點未來可能的研究方向

  • Subword級別的信息。對於詞形態比較豐富的語言,單詞內部結構可能會比較複雜,某些詞的某些詞形也比較罕見。對於這樣的語言,更合理的是將詞幹lemmma和詞素morpheme的表示結合起來。目前一些構建單語詞向量的工作已經注意到了這一點,但是還沒有用到跨語言詞向量的學習中。開放性問題:對於詞形非常不同的語言,如何很好地對齊詞空間?例如某個語言中單個單詞包含的信息要在另一個語言裏用詞組表示
  • 詞組習語的表示(原文僅僅用的是“multi-word”這個詞)。對詞形態豐富的語言,僅僅用單詞作爲最細粒度的表示單元,看上去有點粗糙。但是即便是對詞形態簡單的語言,有時詞組的意思也不能簡單地按照組成詞組的單詞字面意思理解,例如ad hoc或者kick the bucket(後者是“死”在俚語裏的委婉說法)。這種詞組的表示在單語詞向量裏都還沒有收到重視。開放性問題:可以使用當前技術跨語言對齊詞組嗎
  • 功能詞。目前單語詞向量對功能詞(虛詞)的刻畫能力不夠,不太好區分Give me a pencil或Give me that pencil
  • 多義詞。如何區分同一單詞的不同詞義?這個問題對單語詞向量的學習來說還沒很好解決,而在多語詞向量學習中這個問題會被進一步放大。假設多義詞會爲源語言帶來mm個不好的詞向量,爲目標語言帶來nn個不好的詞向量,那麼最壞情況會在跨語言空間中得出O(m×n)\mathcal{O}(m\times n)個錯誤的最近鄰關係。開放性問題:在跨語言NLP中需要這種詞義級別的表示嗎?
  • 特殊領域的詞嵌入。在某些領域,跨語言應用可能尤其有用,例如生物信息學或社交媒體等。但是,在很多這樣的領域以及很多少資源語言,平行語料並不容易獲得,因此使用盡可能少的平行語料訓練出魯棒的跨語言詞向量是一個很重要的研究方向。另一個相關方向是研究怎麼把可比較的語料用起來,因爲這樣的語料更多,更容易獲得,而且會包含一些其他的信號,例如多模態上下文
  • 可行性。現有工作期望學到的共享空間機能捕捉到語言內部詞之間的信息,同時還能捕捉到語言之間的信息——這有點太樂觀了。不同的語言是有很大區別的。另外一個瓶頸是找出一個既滿足語言內限制和語言間限制詞嵌入的時間複雜性。儘管現有方法都是通過損失函數來對打破這樣限制的模型加以懲罰,但是無法確保最終模型可以滿足全部限制——檢查是否滿足限制的算法,時間複雜度不高,與限制數量成線性關係;但是要找出這樣的模型是否存在就比較難,實際上是NP-hard的
  • 非線性變換。目前所有基於映射的方法都是假設兩個嵌入空間之間存在一個線性變換,而且一些工作得到的線性映射也比通過前饋神經網絡學到的非線性映射效果好。但是線性變換還是一個太簡單的模型,而且忽視了語言之間的區別。開放性問題:如何能魯棒地學出向量空間之間的非線性映射呢?
  • 魯棒的無監督方法。目前的無監督方法依賴一個重要假設,就是單語詞向量空間都是大致同構的,不過這個假設實際上很難成立。如前所述,如果兩個語言關係比較遠,很多無監督方法會變得不穩定或者不可用。因此使用魯棒的無監督方法爲關係遠的語言做雙語詞典推導,還是一個開放性問題
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章