一、模型結構
對LSTM部分做出的改動,其餘與NIC相同。
與原本的lstm公式相比 多了一個,就是attention應 用的結果。
首先 我們給不同位置的特徵設置權重 權重的值和爲1 這很自然就會想到使用softmax
在每個時刻t,我們都要設置不同位置的權重。在每個時刻,根據前一刻的狀態確定當前的權重,權重不同,代表對不同位置的關注度不同。
是第i個位置的圖像特徵,是softmax歸一化之後的t時刻的權重
是一個多層感知器,也就是簡單的全連接網絡。得到權重以後,
這裏的有兩種 hard attention 和soft attention ,因爲soft簡單,只介紹soft。
在得到當前時刻的後,產生概率預測。
是前一個時刻的輸出,也就是當前時刻的輸入。
二、總結
就是在每個時刻的輸入圖像特徵 加了權重 對不同位置的特徵 加了不同的關注度。