读Attention文章1

原創

2020-05-10 10:41

简介部分：

对于机器翻译，之前的做法就是把输入压缩成一个向量，然后对这个encode后的向量进行decode，这种方法处理长句子比较难，尤其当句子的长度长于训练集中的语料库
本问提出的模型，当翻译生成一个词语的时候，我们在输入的序列中找到与目标词y(t)最相关的信息，模型预测目标基于这些位置信息的上下文的语义向量以及已预测出来的词(y1,y2,...,y(t-1) ) 共同进行。
本文提出的模型与encoder-decoder 最大的区别在于，encoder-decoder模型在于把全部输入的序列压缩成一个固定的向量，而本文的提出的模型是选取输入序列中的部分对目标词进行预测

举个中译英的例子：

我的/名字/叫做/推推

my name is tuitui

如果，我们要将 “名字” 翻译成 “name” ，输入序列中 “名字” 对于翻译结果 name，更加重要一些，这个就是attention的意思，注意力，集中在sequence的部分

背景：神经机器翻译

目标是argmax p(y|x) , 有些文章提出了基于RNN(LSTM) 的模型取得了显著的效果(state-of-the-art)
RNN encoder-decoder模型
- 隐藏层单元部分，例如f 为LSTM
- encoder部分，例如 q({h1,h2,..,hT})=hT，即取最后一个隐藏单元作为输入向量的压缩结果
- decoder部分，根据c 和先前预测出的y1，y2,....,yt-1 来预测 yt ，即，g是一个非线性函数，st 是隐藏单元
- 对于生成一个句子来(y1,y2,...,yT)说，即

3. 校准和翻译 - 重点，本问提出的模型，有一些创新点

encoder 部分：

采用了双向RNN进行编码，一个词的前后信息都考虑进去

decoder部分：

上面的图看着还是有点模糊，我重新画一个

我画的图，是基于 input sequence 的长度为4，预测目标y1的过程

可以看到y1 由 c1,y0,s1 构成

s1 由 s0,y0,c1构成

c1 由经过softmax 后的 e11,e12,e13,e14构成

注意 c的下标和目标y的下标是一致的； eij 表示输入部分第j个hidden unit 对输出第j个目标的重要性，当然，中间会涉及si-1

si 来传递到yj

具体公式文章中是如下说明的

模型的一些细节

RNN的结构，采用了 gated hidden unit 结果，这个结构跟LSTM有点类似，作者也是受到LSTM启发得来的，结构如下

reset gate

update gate

主要用于计算hidden unit

其中

一些说明：

当reset gate 趋近0的时候，就会忽略 h(t-1)，丢掉一些不相关的信息

当update gate 用于记忆long-term信息

每个hidden unit 是有独立的reset 和update gate

align 模型

其中 v，w，u 都是权重矩阵，其中Ua*hj 可以预先算好，因为和Si 没有关系呢

decoder 部分的si ，相比encoder部分的hiddencell，多了一个Ci

初始的s0 为

目标函数

refer：

https://arxiv.org/pdf/1409.0473.pdf NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

https://arxiv.org/pdf/1406.1078.pdf Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【终极指南】使用Python可视化分析文本情感倾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

解读注意力机制原理，教你使用Python实现深度学习模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能测试持续加码，大模型引领软件测试新生态

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

华为云大咖说：开发者应用AI大模型的“道、法、术”

本文分享自華爲雲社區《華爲大咖說 | 企業應用AI大模型的“道、法、術” ——道：認知篇》，作者：華爲雲PaaS服務小智。本期核心觀點上車：AGI是未來5～10年內，每個人都無法迴避的技術革命，建議就近上車。迭代：眼下的AI大模型應

2024-05-30 10:58:22

怎么使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

文心大模型免费辣，动手搓点啥庆祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

走进京东“卓越研效架构师”首期研习营圆满收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

儿童节变身小小音乐家*用ModelArts制作一张AIGC音乐专辑

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺诈指南：车险欺诈为何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基于Fluid与JindoCache的大模型训练加速实践

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

AI安全志：英国AI骗保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

风控指南：国内车险欺诈呈现四大趋势

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

智能高效的IDE GoLand v2024.1全新发布 - 进一步升级AI辅助工具

GoLand 使 Go 代碼的閱讀、編寫和更改變得非常容易。即時錯誤檢測和修復建議，通過一步撤消快速安全重構，智能代碼完成，死代碼檢測和文檔提示幫助所有 Go 開發人員，從新手到經驗豐富的專業人士，創建快速、高效、和可靠的代碼。立即獲取G

2024-05-21 12:19:26

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

网络爬虫安全：90后小伙，用软件非法搬运他人原创视频被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

24小時熱門文章

最新文章

最新評論文章