機器翻譯以及注意力機制

原創

2019-06-10 15:17

注意力機制就是讓計算機模擬人類大腦，在看東西的時候，將注意力集中在比較感興趣的物體上。

1. 引入注意力機制的目的：

1、計算能力的限制：越複雜的模型才能記住更多的信息，但是當前計算能力依然是限制人工神經網絡發展的瓶頸
2、優化算法的限制：雖然局部連接、權重共享以及pooling等優化操作可以讓神經網絡變得簡單一些，
有效緩解模型複雜度和表達能力之間的矛盾；但是，信息“記憶”能力並不高

2. 按照認知神經學中的注意力，可分爲兩類：

1、聚焦式（focus）注意力：自上而下的有意識的注意力，主動注意——是指有預定目的、依賴任務的、主動有意識地聚焦於某一對象的注意力；
2、顯著性（saliency-based）注意力：：自下而上的有意識的注意力，被動注意——基於顯著性的注意力是由外界刺激驅動的注意，不需要主動干預，也和任務無關；可以將max-pooling和門控（gating）機制來近似地看作是自下而上的基於顯著性的注意力機制。
在人工神經網絡中，注意力機制一般就特指聚焦式注意力。

3. 注意力機制計算流程

Attention機制的目的是計算Attention Value，通過給定一個和任務相關的查詢Query向量 q，計算與Key的注意力分佈並附加在Value上。注意力機制分爲三個步驟：一是信息輸入；二是計算注意力分佈α；三是根據注意力分佈α 來計算輸入信息的加權平均。
在第二步中，我們將 αi 稱之爲注意力分佈（概率分佈），s(ht,hs) 爲注意力打分機制，其中ht是Encoder部分的隱藏層，hs是decoder部分的隱藏層。有四種打分機制：

4. 四種變體

另外呢，也有人將注意力機制其分爲四種變體

5. 神經網絡中的機器翻譯：

機器翻譯是序列到序列的問題，也叫做編碼器和解碼器，encoder和decoder，Encoder的輸入是x1，decoder的輸入就是encoder最後一個隱藏層。一般呢，在機器翻譯中，一般都使用RNN，比如LSTM和GPU。

ht爲編碼器的隱藏狀態, c是上下文向量, 是通過當前時間步上下文的隱藏向量計算得到的

6. 首次提出注意力機制【1】

在公式求e_ij中，Va和Wa，Ua都是網絡的參數，其中W_a ∈ R^n×n，U_a ∈ R^n×2n,v_a ∈ Rⁿ,e_ij ∈ Rⁿ，對e_ij 進行歸一化處理得到α_ij∈ R¹
通過將所有的a_ij和hj作加和，即α_i1h₁+α_i2h₁+……α_iTh_T=c_j，c_j ∈ R^2n×1

7. 全局注意力和局部注意力【2】

這是另外一篇論文提出來的，Global Attention Model和Local Attention Model

這個是斯坦福大學提出來的一篇論文。全局注意力比較簡單，和[Bahdanau et al., 2014]提出來的做法相似，只不過他沒有使用雙向CNN。其中他還嘗試了三種得分方式。實驗證明：dot product在gloabal attention中表現更好，而general方程在local attention中表現更好。

局部注意力就對跟我的輸出結果有影響的地方實行重點關注，實現的方法就是在某一窗口位置Pt取範圍D之間的值，其中D是由我們自己設定的一個區域大小，Pt就是關注範圍的中間值。
那麼公式Pt=T_xσ（V_p^Ttanh(W_ph_t)），V_p^T，W_p是可訓練的參數，σ是sigmoid函數，σ（V_p^Ttanh(W_ph_t)）的範圍是在[0-1]之間，T_x是表示source sentence句子長度。

8. sotf attention and hard attention【3】

sotf attention 上面的圖，關注的是全局
hard attention 下面的圖，關注的只是局部的一點

在這裏輸入的圖片是先經過VGG網絡提取特徵，得到（512，14,14）的特徵圖，將(14,14)拉成一維向量，即特徵圖變成了（512，196），即α∈（512，196）。式中的L就是196，αi∈（512，1），hi∈（1,512）。

hard attention用的地方不多，在論文中有完整的公式。可以參考論文

參考文獻
【1】Bahdanau D , Cho K , Bengio Y . Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.

【2】Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015.

【3】Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[J]. arXiv preprint arXiv:1502.03044, 2015.

參考博客
http://www.cnblogs.com/databingo/p/9769928.html
https://blog.csdn.net/jasonzhoujx/article/details/83386627
https://blog.csdn.net/u011414416/article/details/51057789
https://www.cnblogs.com/wangduo/p/6773601.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器翻譯以及注意力機制

1. 引入注意力機制的目的：

2. 按照認知神經學中的注意力，可分爲兩類：

3. 注意力機制計算流程

4. 四種變體

5. 神經網絡中的機器翻譯：

6. 首次提出注意力機制【1】

7. 全局注意力和局部注意力【2】

8. sotf attention and hard attention【3】

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

常見的損失函數，代價函數以及優化算法彙總

數據挖掘之爬蟲獲取網頁信息

數據挖掘之數據清洗（缺失值，異常值）

報"ImportError: DLL load failed: 找不到指定的模塊"的解決辦法

線性迴歸邏輯迴歸以及梯度下降算法講解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結