image caption筆記（七）：《Bottom-Up and Top-Down Attention》

仍然是對attention機制的擴展。可以看到，現在的工作，基本都添加了attention機制，要麼是spitial attention，要麼是semantic attention。

文章的主要貢獻包括：
（1）提出了一個新的lstm組合模型，包括了attention lstm和language lstm 兩個組件。在這個組合模型的基礎上引入spitial attention機制（類似於《show,attend and tell》的top-down attention機制）,可以實現比此前最佳scst（self critic）模型略好的效果。

（2）引入了bottom-up，bottom-up機制基於 faster r-cnn提出圖像區域，每個區域具有相關的特徵向量。

（3）爲了提升提取特徵的能力，對Faster R-CNN的輸出和損失函數做了添加。設計了屬性分類的部分。

這樣把top-down和bottom-up組合起來得到聯合注意機制。bottom-up機制提出圖像區域，確定每個區域的特徵向量，而top-down的機制確定特徵權重。其實在某種程度上來看，bottom-up的機制，相當於更精細的hard attention，因爲是給確定的少數區域特徵加權重。

作者的想法源自於，原本的attention機制是把特徵圖平均的劃分爲14*14=196塊，然後給它們配權重。作者認爲，我們應當把注意力更多地放在圖中的對象上（聚焦主要目標）。

模型結構：

首先使用在ImageNet上預訓練好的resnet-101初始化Faster R-CNN，然後在VG數據集上開始訓練。訓練的時候，原本的輸出是類標籤上的Softmax分佈和BBs。爲了提升網絡提取特徵的能力，在原本輸出和損失函數的基礎上，作者新添加了一個新的輸出和損失，用於訓練一個額外的屬性預測器。

將某個區域的平均池化卷積特徵vi與該區域ground truth的目標類別embedding連接起來，接softmax,輸出是屬性類別數+1，也就是除了每個屬性之外，加了一個‘no attribute’。