image caption筆記（四）：《Image Captioning with Semantic Attention》

原創

2020-06-04 11:05

文章來自cvpr2016

image caption常見的方法包括top-down和bottom-up。Top-down直接做圖像到文本的端到端學習，而bottom-up先抽取出一些關鍵詞，再把關鍵詞組合成一句話。Top-down比較難處理一些圖像的細節，因爲它將整張圖片作爲輸入。而bottom-up不容易做端到端的學習，將抽取的特徵組成一句話也很困難。因此文章在端到端模型中引入了attention機制，結合了兩種方法的優勢。

與《show,attend and tell》相比，同樣是引入了注意力機制，不同點在於：

在《show,attend and tell》中，注意力是以固定的分辨率在空間上建模的。在每次重複迭代時，該算法計算一組與預定義的空間位置相對應的注意權值。相反，本文可以在圖像中任何分辨率的任何地方使用概念。事實上，本文甚至可以使用在圖像中沒有直接視覺存在的概念。

在RNN的輸入、輸出均引入了注意力機制。

關於屬性的選取，共有兩種方法。第一種沒看懂，第二種就是在caption中挑取頻率高的單詞作爲屬性。

也是隻在起始時刻輸入圖像特徵。後續不再使用。

關鍵在於輸入和輸出時刻的兩個注意力模型。

先說輸入時刻的注意力模型

首先是根據前一個單詞與不同屬性的相關性分配權重（都是從詞彙庫中得出的所以都用y表示）用E降一下維度

本文使用雙線性函數表述模型相關性：

然後組合屬性和前一時刻的輸出得到當前時刻的輸入

輸出的注意力機制與此類似，先計算權重

然後根據當前時刻的隱藏態和組合屬性計算輸出的softmax概率值

最後是損失函數，包括三部分，後兩部分是對權重的限制。第一部分就是希望預測的vocab大小的softmax概率向量中，gt位置的概率儘可能的接近1.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

image caption筆記（二）：《Show and Tell : A Neural Image Caption Generator》

2020-06-04 11:05:43

image caption筆記（三）：《Show, Attend and Tell_Neural Image Caption》

2020-06-04 11:05:43

image caption筆記（五）：《Knowing When to Look: Adaptive Attention》

2020-06-04 11:05:43

image caption筆記(一)：RNN、LSTM和GRU的理解

2020-06-04 11:05:32

image caption筆記（六）：《self_critical (scst)》

2020-06-04 11:05:32

image caption筆記（五）：《SCA-CNN》

2020-06-04 11:05:32

image caption筆記（七）：《Bottom-Up and Top-Down Attention》

2020-06-04 11:05:32

Image captioning with visual attention（TF2.0基於注意機制的圖像字幕）

2020-05-23 02:28:41

Positional encodings

2020-02-21 23:41:20

畢業前的計劃

2020-02-20 13:43:42

subprocess.py報錯：FileNotError: [Errno 2] No such file or directory: java: java

在運行coco計算ImageCaption得分時，出現以下錯誤： subprocess.py報錯：FileNotError: [Errno 2] No such file or directory: 'java': 'java' 原因：

清晨的光明

2020-07-08 02:37:26

面向遙圖像數據的Image Caption研究附源碼

面向遙感圖像數據的Image Caption 相關理論知識請參見其他文章，這裏只從工程角度進行描寫，重點是源代碼。參考網址： 1.面向遙感圖像的Image caption 數據集：【乾貨】讓遙感圖像活起來：遙感圖像描述生成的模型與數據

Jerry_liu20080504

2020-06-15 20:10:19

image caption筆記（二）：《Show and Tell : A Neural Image Caption Generator》

2020-06-04 11:05:43

image caption筆記（三）：《Show, Attend and Tell_Neural Image Caption》

2020-06-04 11:05:43

image caption筆記（五）：《Knowing When to Look: Adaptive Attention》

2020-06-04 11:05:43

24小時熱門文章

最新文章

最新評論文章