一、基础积累
1、序列问题(Sequence Problem)
2、序列模型(Sequence Models)
(1)输入输出均为序列数据的模型,序列模型将输入序列数据转换为目标序列的数据
(2)形式:one to many,many to many(seq2seq),many to many
(3)常见的CNN模型:Neural GPU,ByteNet,ConvS2S,带有注意力的CNN模型。
(4)通过RNN模型:
(5)了解什么时自注意力机制,以及seq2seq的编码与解码的过程。
二、论文
1、论文的结构
(1)第一遍主要阅读摘要和模型的构造部分,说明和背景会给初读者带来很多未知的困扰
(2)附录的公式和分析的图进行记录,帮助自己以后写论文
(3)快速了解文章的大意(Abstract+Model)+ 复现论文+分析(Why this Model+Appendix)+背景学习(Introduction+Background)
2、传统的模型结构
(1)Rnn只能解决定长的结构问题,研究之后出现了编码解码机制,最后出现了注意力机制
(2)常用的权重函数(相似度函数):多层感知机(Multi-layer perceptron)、双线性(Bilinear)、点乘(Dot Product)、放缩的点乘(Scaled Dot Product)
(3)Cnn实现编码解码的模型
3、本文模型
(1)编码层:6层编码层进行编码,整句话进行编码
(2)解码层:每一个字符每一个字符进行解码
(3)自注意力机制与注意力机制的区别
(4)自注意力与卷积的区别
(5)多头注意力机制:
不同颜色代表相关性的关系强弱