image caption筆記(五):《Knowing When to Look: Adaptive Attention》

本質上仍然是對attention機制的改進。在每一個時刻,模型決定更依賴圖像視覺信息或者語言模型。

一、模型結構:

(1)對原本的attention機制做改進

 

原本的attention機制:

是第i個位置的圖像特徵,是softmax歸一化之後的t時刻的權重

詳細看博客《image caption筆記(三):show,attend and tell》

原本的attention機制每一個時刻的上下文變量由圖像特徵和得到,然後生成 當前時刻的、前一個時刻的輸出(當前時刻的輸入)結生成下一個單詞的 概率。

 

 

做出的改動爲

先生成由圖像特徵和得到。其餘不變。

也就是上下文變量由根據前一個時刻的隱藏態生成  變爲根據當前時刻的隱藏態生成。

 

 

(2)在上面的attention機制上,加入adaptive機制。

attention機制中   表達了在某一個時刻,對圖像不同位置的關注度。

那麼我們現在還需要一個東西,來表達這個時刻對語言模型前面信息的關注度。我們知道是細胞狀態,貫穿整個lstm,包含了語言模型t時刻之前的信息。

建立一個哨兵機制(我更願意稱呼它爲哨兵門,因爲定義和  LSTM中門的 定義很像)

                                          

 

 

每一個時刻共同產生預測結果

二、總結

仍然是對attention的改進,每一個時刻對圖像特徵和語言模型 確定一下偏向性。

 

(1)改進attention機制

(2)設計了哨兵門

利用控制對二者的關注程度

(3)爲了確定,重新設計了計算圖像特徵權重的softmax分類器。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章