PyTorch快餐教程2019 (1) - 從Transformer說起

PyTorch快餐教程2019 (1) - 從Transformer說起

深度學習已經從熱門技能向必備技能方向發展。然而,技術發展的道路並不是直線上升的,並不是說掌握了全連接網絡、卷積網絡和循環神經網絡就可以暫時休息了。至少如果想做自然語言處理的話並非如此。

2017年,Google Brain的Ashish Vaswani等人發表了《Attention is all you need》的論文,提出只用Attention機制,不用RNN也不用CNN,就可以做到在WMT 2014英譯德上當時的BLEU最高分28.4.

RNN機器翻譯簡史

在Transformer模型被提出之前,機器翻譯一直是以RNN爲主。
使用的工具是著名的RNN的兩個改進版,1997年提出的長短時記憶網絡LSTM和2014年提出的門控循環單元GRU。這三種實現均在torch

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章