本質上仍然是對attention機制的改進。在每一個時刻,模型決定更依賴圖像視覺信息或者語言模型。
一、模型結構:
(1)對原本的attention機制做改進
原本的attention機制:
是第i個位置的圖像特徵,是softmax歸一化之後的t時刻的權重
詳細看博客《image caption筆記(三):show,attend and tell》
原本的attention機制每一個時刻的上下文變量由圖像特徵和得到,然後生成 當前時刻的。與、前一個時刻的輸出(當前時刻的輸入)結生成下一個單詞的 概率。
做出的改動爲:
先生成由圖像特徵和得到。其餘不變。
也就是上下文變量由根據前一個時刻的隱藏態生成 變爲根據當前時刻的隱藏態生成。
(2)在上面的attention機制上,加入adaptive機制。
attention機制中 表達了在某一個時刻,對圖像不同位置的關注度。
那麼我們現在還需要一個東西,來表達這個時刻對語言模型前面信息的關注度。我們知道是細胞狀態,貫穿整個lstm,包含了語言模型t時刻之前的信息。
建立一個哨兵機制(我更願意稱呼它爲哨兵門,因爲定義和 LSTM中門的 定義很像)
每一個時刻和共同產生預測結果
二、總結
仍然是對attention的改進,每一個時刻對圖像特徵和語言模型 確定一下偏向性。
(1)改進attention機制
(2)設計了哨兵門
利用控制對二者的關注程度
(3)爲了確定,重新設計了計算圖像特徵權重的softmax分類器。