2018年,Gu等人提出了一種新的機器翻譯模型,這種模型不用再從左到右的順序依次翻譯了,使得翻譯過程可以並行化。
模型本身依然是基於Transformer
的,不同的是在測試時可以並行解碼。模型結構如下圖所示:
把並行計算結果時,不同位置之間的詞獨立帶來的問題歸結爲訓練樣本中存在 multimodal target distribution的問題。找到一個很好的切入點,並通過引入隱含變量來降低mode的空間,幫助decoder進行decode。同時論文中採用knowledge distillation
的方式,利用auto-regressive model來幫助模型進行訓練,也是一個非常好的做法。最終使得,模型在non-auto-regressive
的情況下,達到了auto-regressive
模型的效果。
TODO具體的論文閱讀