贪心学院transformer模型讲解记录

原創

勿在浮沙筑高台LS

2020-02-22 00:47

1.FFN层和z1和z2层是不同的，FFN层是隔开的，权重不共享的，而Z1和Z2不是隔开的

2.Q,K,V是借鉴了搜索的思维在里面，Q是query的意思，<K,V>是<key,value>的意思,Q值就是word应该映射一会进行搜索的值，K是搜索的目标，V是目标值，类似K是文档的主题，V是文档的向量，Q是搜索文档的文本。这样就能训练得到word与word之间的关系，不同的W就表示搜索的维度不一样

3.借鉴ResNet思想，embedding层可以越过normalize处理结果，防止梯度消失，因为添加上面可以直接反馈到最下面一层

4.decode部分，可以看出翻译的时候，翻译结果的attention是依次输入的使用masked Multi-Head Attention进行attention，而等后面的Multi-Head的时候才进行接入encode的结果，接入过程是q是使用encode的记过跟Wq进行计算得到的，而k和v都是使用Multi-Head Attention进行计算，这样就是使用encode进行检索想要翻译的结果，就是decode的思想

5.decode的mask multi-Head Attention是什么？

因为不能利用翻译后的结果，只能使用已经翻译完成的单词作为输入，翻译后面的单词

6.layer normalization和BN的区别和联系是什么？

https://blog.csdn.net/liuxiao214/article/details/81037416

LN可以避免BN的batch大小对结果的影响

7.Position Encoding的计算过程和想要得到的实际效果？

position Encoding的设置初始化后，离自己近的单词的欧式距离小于离自己远的单词的欧式距离，使用cos和sin进行初始化就是要达到这种效果

pos就是词的位置["我","爱","中国"]，[0,1,2]

座标的2i表示偶数位置，2i+1表示奇数位置（奇数和偶数位置是指在假如embedding的维度是4，位置就表示embedding中的位置dmodel表示embeddin的size）

我们也可以自己设置position embedding，通过模型学习，也可以使用上面的方式

勿在浮沙筑高台LS

发布了358 篇原创文章 · 获赞 113 · 访问量 82万+

他的留言板关注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Twitch表情中的情绪分析

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Martin Anderson

2021-12-07 16:00:03

达摩院AliceMind上新！首个中文表格预训练模型发布，已向业界开源

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 18:18:58

在元宇宙里怎么交朋友？Meta发布跨语种交流语音模型，支持128种语言无障碍对话

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-23 14:03:53

人工智能时代，如何硬核玩音乐？| InfoQ《大咖说》

直播內容：在人工智能技術迅速發展的當下，越來越多的領域被這項技術注入新的活力。作爲多媒體領域中不可缺少的組成部分，音樂對於人類的重要性不言而喻。值得一提的是，人工智能在音樂領域的研究早在多年前就已經開始了，並且也落地了很多成熟應用。當前

InfoQ 中文站

2021-11-12 14:23:49

不是只有数字化水平高，才可以落地知识图谱

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-11 15:23:53

腾讯发布超大预训练系统派大星，聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 13:38:53

微软和英伟达推出训练语言模型MT-NLG：5300亿参数量，是GPT-3的3倍

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-10-12 14:13:53

谷歌推出Translatotron 2，一种没有深度伪造潜力的语音到语音直接翻译神经模型

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-09-10 14:09:01

放心，GPT-3不会“杀死”编程

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-09-03 17:58:55

为什么神经网络不适合理解自然语言？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-08-04 16:13:54

易聊科技宣布在线客服系统IM永久免费，透视智能客服的商业化潜力

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-07-27 17:33:49

5个流行的自然语言处理库及入门用法

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-07-26 10:43:50

AI虚拟人多模态交互落地难题如何破解？我们在乐享A.I.技术沙龙成都站找到了答案

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-06-24 16:18:54

官宣！达摩院开源秘藏深度语言模型体系AliceMind，NLP正在走向大工业时代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-06-22 14:48:49

让普通人秒会编程？微软在Power平台上集成GPT-3，将自然语言直接变成现成代码

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-28 17:48:57

24小時熱門文章

最新文章

最新評論文章