image caption筆記(三):《Show, Attend and Tell_Neural Image Caption》

一、模型結構

對LSTM部分做出的改動,其餘與NIC相同。

                       

                                

與原本的lstm公式相比  多了一個就是attention應 用的結果。

首先 我們給不同位置的特徵設置權重  權重的值和爲1  這很自然就會想到使用softmax

在每個時刻t,我們都要設置不同位置的權重。在每個時刻,根據前一刻的狀態確定當前的權重,權重不同,代表對不同位置的關注度不同。

是第i個位置的圖像特徵,是softmax歸一化之後的t時刻的權重

是一個多層感知器,也就是簡單的全連接網絡。得到權重以後,

                                                                           

這裏的有兩種  hard attention 和soft attention  ,因爲soft簡單,只介紹soft。

 

在得到當前時刻的後,產生概率預測。

是前一個時刻的輸出,也就是當前時刻的輸入。

 

二、總結

就是在每個時刻的輸入圖像特徵  加了權重  對不同位置的特徵 加了不同的關注度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章