讀Attention文章1

原創

2020-05-10 10:41

簡介部分：

對於機器翻譯，之前的做法就是把輸入壓縮成一個向量，然後對這個encode後的向量進行decode，這種方法處理長句子比較難，尤其當句子的長度長於訓練集中的語料庫
本問提出的模型，當翻譯生成一個詞語的時候，我們在輸入的序列中找到與目標詞y(t)最相關的信息，模型預測目標基於這些位置信息的上下文的語義向量以及已預測出來的詞(y1,y2,...,y(t-1) ) 共同進行。
本文提出的模型與encoder-decoder 最大的區別在於，encoder-decoder模型在於把全部輸入的序列壓縮成一個固定的向量，而本文的提出的模型是選取輸入序列中的部分對目標詞進行預測

舉箇中譯英的例子：

我的/名字/叫做/推推

my name is tuitui

如果，我們要將 “名字” 翻譯成 “name” ，輸入序列中 “名字” 對於翻譯結果 name，更加重要一些，這個就是attention的意思，注意力，集中在sequence的部分

背景：神經機器翻譯

目標是argmax p(y|x) , 有些文章提出了基於RNN(LSTM) 的模型取得了顯著的效果(state-of-the-art)
RNN encoder-decoder模型
- 隱藏層單元部分，例如f 爲LSTM
- encoder部分，例如 q({h1,h2,..,hT})=hT，即取最後一個隱藏單元作爲輸入向量的壓縮結果
- decoder部分，根據c 和先前預測出的y1，y2,....,yt-1 來預測 yt ，即，g是一個非線性函數，st 是隱藏單元
- 對於生成一個句子來(y1,y2,...,yT)說，即

3. 校準和翻譯 - 重點，本問提出的模型，有一些創新點

encoder 部分：

採用了雙向RNN進行編碼，一個詞的前後信息都考慮進去

decoder部分：

上面的圖看着還是有點模糊，我重新畫一個

我畫的圖，是基於 input sequence 的長度爲4，預測目標y1的過程

可以看到y1 由 c1,y0,s1 構成

s1 由 s0,y0,c1構成

c1 由經過softmax 後的 e11,e12,e13,e14構成

注意 c的下標和目標y的下標是一致的； eij 表示輸入部分第j個hidden unit 對輸出第j個目標的重要性，當然，中間會涉及si-1

si 來傳遞到yj

具體公式文章中是如下說明的

模型的一些細節

RNN的結構，採用了 gated hidden unit 結果，這個結構跟LSTM有點類似，作者也是受到LSTM啓發得來的，結構如下

reset gate

update gate

主要用於計算hidden unit

其中

一些說明：

當reset gate 趨近0的時候，就會忽略 h(t-1)，丟掉一些不相關的信息

當update gate 用於記憶long-term信息

每個hidden unit 是有獨立的reset 和update gate

align 模型

其中 v，w，u 都是權重矩陣，其中Ua*hj 可以預先算好，因爲和Si 沒有關係呢

decoder 部分的si ，相比encoder部分的hiddencell，多了一個Ci

初始的s0 爲

目標函數

refer：

https://arxiv.org/pdf/1409.0473.pdf NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

https://arxiv.org/pdf/1406.1078.pdf Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

大模型微調方法總結：LoRA, Adapter, Prefix-tuning, P-tuning, Prompt-tuning

隨着自然語言處理（NLP）技術的不斷髮展，大模型微調（finetune）方法成爲了提高模型性能的關鍵手段。本文將對LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning等主流微調方法進行總結，幫助

2024-05-09 12:48:44

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

網絡爬蟲安全：90後小夥，用軟件非法搬運他人原創視頻被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指標說明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

AIGC在京東廣告創意的技術應用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應

京東雲開發者

2024-05-08 23:24:18

AI繪圖新選擇：Fooocus工具發佈，小顯存助力大模型運行

隨着人工智能技術的飛速發展，AI繪圖工具已經成爲了衆多創作者們的得力助手。它們能夠基於深度學習算法，快速生成高質量的圖像，爲設計、藝術等領域注入了新的活力。然而，傳統的AI繪圖工具往往對硬件要求較高，使得許多擁有較低配置設備的用戶望而卻步。

2024-05-07 23:30:10

京東廣告研發——效率爲王：廣告統一檢索平臺實踐

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

24小時熱門文章

最新文章

最新評論文章