Attention is all you need

一、基础积累

1序列问题(Sequence Problem)
2序列模型(Sequence Models)
(1)输入输出均为序列数据的模型,序列模型将输入序列数据转换为目标序列的数据
(2)形式:one to many,many to many(seq2seq),many to many
(3)常见的CNN模型:Neural GPU,ByteNet,ConvS2S,带有注意力的CNN模型。
(4)通过RNN模型:

在这里插入图片描述
在这里插入图片描述

(5)了解什么时自注意力机制,以及seq2seq的编码与解码的过程。

二、论文

1、论文的结构
(1)第一遍主要阅读摘要和模型的构造部分,说明和背景会给初读者带来很多未知的困扰
(2)附录的公式和分析的图进行记录,帮助自己以后写论文
(3)快速了解文章的大意(Abstract+Model)+ 复现论文+分析(Why this Model+Appendix)+背景学习(Introduction+Background)

在这里插入图片描述

2、传统的模型结构
(1)Rnn只能解决定长的结构问题,研究之后出现了编码解码机制,最后出现了注意力机制
(2)常用的权重函数(相似度函数):多层感知机(Multi-layer perceptron)、双线性(Bilinear)、点乘(Dot Product)、放缩的点乘(Scaled Dot Product)
(3)Cnn实现编码解码的模型
3、本文模型
(1)编码层:6层编码层进行编码,整句话进行编码
在这里插入图片描述
(2)解码层:每一个字符每一个字符进行解码

在这里插入图片描述

在这里插入图片描述
(3)自注意力机制与注意力机制的区别

在这里插入图片描述
(4)自注意力与卷积的区别
在这里插入图片描述
在这里插入图片描述
(5)多头注意力机制:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
不同颜色代表相关性的关系强弱

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章