CH2-NLG應用之【機器翻譯non-auto-regressive版】

2018年,Gu等人提出了一種新的機器翻譯模型,這種模型不用再從左到右的順序依次翻譯了,使得翻譯過程可以並行化。

模型本身依然是基於Transformer的,不同的是在測試時可以並行解碼。模型結構如下圖所示:

把並行計算結果時,不同位置之間的詞獨立帶來的問題歸結爲訓練樣本中存在 multimodal target distribution的問題。找到一個很好的切入點,並通過引入隱含變量來降低mode的空間,幫助decoder進行decode。同時論文中採用knowledge distillation的方式,利用auto-regressive model來幫助模型進行訓練,也是一個非常好的做法。最終使得,模型在non-auto-regressive的情況下,達到了auto-regressive模型的效果。

TODO具體的論文閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章