Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention

近年來，由於深層字幕架構將卷積神經網絡提取圖像表示，再利用遞歸神經網絡生成相應的字幕，令人印象深刻的成就使圖像字幕獲得了廣泛的關注。同時，針對顯着性預測模型的開發已經進行了重大研究，該模型可以預測人眼注視。儘管顯着性信息可能有助於調節圖像字幕體系結構，但是通過提供什麼是顯着的，什麼不是顯着的指示，研究仍在努力地將這兩種技術結合在一起。在這項工作中，我們提出了一種圖像字幕方法，其中，通過利用顯着性預測模型提供的條件（在圖像的某些部分位於圖像上），生成的遞歸神經網絡可以在字幕的生成過程中專注於輸入圖像的不同部分。突出，並且是上下文相關的。通過對大規模數據集進行廣泛的定量和定性實驗，我們表明，在具有和不具有顯着性的字幕基線以及結合顯着性和字幕的最新技術水平方面，我們的模型均具有出色的性能。

CCS概念：•計算方法→場景理解；自然語言生成；
其他關鍵詞和短語：顯着性，視覺顯着性預測，圖像字幕，深度學習。

1 INTRODUCTION

計算機視覺和人工智能的核心問題是建立一個可以複製人類理解視覺刺激並以自然語言描述它的能力的系統。確實，這種系統將對社會產生巨大影響，爲人機交互與協作的新進展打開了大門。計算機視覺和機器翻譯的最新進展以及大型數據集的可用性使生成描述圖像的自然句子成爲可能。特別是，深層圖像字幕體系結構在發現視覺描述符與單詞之間的映射方面顯示出令人印象深刻的結果[24、55、56、59]。他們結合了卷積神經網絡（CNN）來提取圖像表示，並結合了遞歸神經網絡（RNN）來構建相應的句子。

雖然這些技術的進步是令人鼓舞的，但是人類在句子的構造和表達方面的能力在今天的圖像字幕系統中仍然遠遠沒有得到充分的模仿。當人類描述一個場景時，他們在用句子命名一個對象之前會先觀察它[14]，並且他們不會以相同的強度聚焦於每個區域，因爲選擇性機制會吸引他們對場景顯著性和相關部分的關注[43]。此外，他們使用周邊視覺來關注上下文，因此圖像的描述不僅暗示場景中的主要對象，以及它們之間的相互關係，而且還暗示它們放置在圖像中的上下文。

在計算機視覺界已經進行了深入的研究，以預測人類在圖像中所處的位置。這項任務稱爲顯着性預測，已在早期工作中得到了解決，方法是定義可捕獲低級提示（例如顏色和紋理）或高級概念（如臉部，人和文字）的手工特徵[4，19，23]。最近，隨着深度神經網絡和大型帶註釋數據集的出現，顯着性預測技術已經獲得了令人印象深刻的結果，這些結果生成的地圖與用眼動設備計算出的地圖非常接近[8、18、20]。

儘管在圖像字幕和視覺顯著性方面取得了令人鼓舞的進展，並且它們之間有着密切的聯繫，但這兩個領域的研究仍然幾乎是分開的。事實上，最近在這方面的嘗試很少[48，52]。Sugano等人[48]特別提出了一種基於人眼注視（即注視特定位置的靜態）的圖像字幕注視輔助注意機制。雖然這種策略證實了使用眼睛注視的重要性，但它需要來自人類操作者的注視信息。因此，它不能應用於一般的可視化數據檔案中，這些信息是丟失的。爲了克服這一限制，Tavakoli等人[52]提出了一種基於顯著性映射的圖像字幕方法，該方法可以從輸入圖像中自動預測。

本文提出了一種結合顯著性預測的方法，有效地提高了圖像描述的質量。我們提出了一種生成遞歸神經網絡結構，它可以通過一種注意機制聚焦於輸入圖像的不同區域。這種注意行爲不同於以往的研究[56]，它受到兩種不同的注意路徑的制約：前者專注於顯著性模型預測的顯著空間區域，而後者專注於上下文區域，這些區域也是根據顯著性地圖計算出來的。在五個公共圖像字幕數據集（SALICON、COCO、Flickr8k、Flickr30k和PASCAL-50S）上的實驗結果表明，我們的解決方案能夠正確地利用顯著性線索。此外，我們還表明，這樣做不會丟失生成的標題的關鍵屬性，例如它們的多樣性和詞彙表大小。通過觀察兩條注意路徑的狀態，我們最終表明，訓練後的模型在標題生成過程中學會了同時關注顯著區域和上下文區域，並且網絡生成的注意焦點與生成的單詞逐步有效地對應。

總之，我們的貢獻如下。首先，我們證明顯著性可以增強圖像描述，因爲它提供了什麼是顯著的和什麼是上下文的指示。其次，我們提出了一個模型，將經典的機器注意方法擴展爲包含兩條注意路徑，一條用於顯著區域，另一條用於上下文。這兩條路徑在標題生成過程中協同工作，顯示出根據自動度量生成更好的標題，而不會丟失多樣性和字典的大小。第三，我們定性地證明了訓練後的模型學會了以適當的方式關注顯著區域和上下文區域。

2 RELATED WORK

在這一部分，我們回顧了與顯著性預測和圖像字幕相關的文獻。我們還報道了最近一些研究顯著性對生成自然語言描述的貢獻的工作。

2.1 Visual saliency prediction

顯著性預測已經被計算機視覺界廣泛研究，在過去的幾年裏，由於深度神經網絡的廣泛應用，顯著性預測已經取得了相當大的進步[8，9，18，20，28，30，39]。然而，在深度學習出現之前，已經提出了很多不同的模型，幾乎每一個模型都受到了Itti和Koch[19]開創性工作的啓發，其中，將從輸入圖像中提取的多尺度低層特徵進行線性組合，然後採用動態神經網絡和贏家通吃策略進行處理。Harel等人還探討了適當結合不同低級特徵的相同思想。[15] 他定義了各種圖像地圖上的馬爾可夫鏈，並將地圖位置上的均衡分佈視爲一種激活。除了利用低級特徵外，一些顯著性模型還包含了高級概念，如面孔、人物和文本[4、23、61]。事實上，Judd等人[23]強調，當人類看圖像時，他們的目光不僅被自下而上的注意力典型的低級線索所吸引，而且也被自上而下的圖像語義所吸引。爲此，他們提出了一種將低層和中層特徵有效結合的模型，並利用人臉和人的檢測器捕獲重要的高層概念。儘管如此，所有這些技術都未能有效地捕獲有助於定義圖像視覺顯著性的各種原因，並且隨着深度學習的到來，研究人員開發了能夠克服手工模型的許多限制的數據驅動架構。

由於缺乏足夠大的訓練數據集，首次嘗試通過神經網絡計算顯著性映射[30，35，54]。Vig等人[54]提出了第一種用於顯著性的深層架構，該架構僅由三個卷積層組成。之後，Kümmer等人[30，31]基於兩個流行的卷積網絡（AlexNet[27]和VGG-19[46]）建立了他們的模型，獲得了足夠的結果，儘管網絡參數沒有在顯著性數據集上進行微調。Liu等人[35]試圖通過在以固定和非固定位置爲中心的圖像塊上訓練其模型來克服缺乏大規模數據集的問題，從而增加訓練數據的數量。

隨着SALICON數據集[21]的到來，它仍然是用於顯著性預測的大型公共數據集，一些深層架構已經超越了以前的方法，帶來了一致的性能提升。所有這些結構的出發點都是一個預先訓練的卷積神經網絡（CNN），例如VGG-16[46]、GoogleNet[50]和ResNet[16]，其中添加了不同的面向顯著性的組件[8，9]，以及不同的訓練策略[9，18，20]。

特別是，Huang等人[18]通過在兩種不同的圖像尺度上應用三種標準CNN，對它們進行了比較。此外，他們還首次使用顯著性評估指標作爲損失函數來訓練網絡。Jetley等人[20]引入了一個模型，該模型將顯著圖表示爲廣義Bernoulli分佈。此外，他們使用不同的損失函數來訓練他們的網絡，這些損失函數將softmax激活函數與用於計算概率分佈之間距離的度量配對。Tavakoli等人[51]研究了圖像間的相似性，使用極端學習者的集合來估計給定圖像的顯著性，每個極端學習者都在與輸入圖像相似的圖像上訓練。相反，Kruthiventi等人[28]提出了一個統一的框架來預測眼睛注視和突出物體。

Pan等人[38]最近提出了另一種顯著性預測模型，他在生成性對抗網絡大量傳播之後，利用對抗性例子訓練了他們的模型。具體來說，它們的體系結構由兩個代理組成：一個負責生成給定圖像的顯著性映射的生成器，一個在生成的顯著性映射和實際顯著性映射之間執行二值分類任務的鑑別器。相反，Liu等人[34]提出了一個模型，用於學習長期的空間交互和場景上下文調製，以推斷圖像顯著性，顯示出有希望的結果，這也要歸功於使用強大的ResNet-50架構[16]。

與所有這些作品相比，我們提出了兩種不同的深度顯著性架構。第一個稱爲ML-Net[8]，它有效地結合了來自CNN不同層次的特徵，並將學習到的權重矩陣應用到預測的顯著性圖中，從而考慮到人眼注視中存在的中心偏差。第二個被稱爲SAM[9]，它結合了神經注意機制，集中在輸入圖像的最顯著區域。該模型的核心部分是一個Attentive Convolutional LSTM，它迭代地細化預測的顯著性映射。此外，爲了解決人類中心偏差問題，該網絡能夠在沒有預先定義信息的情況下學習多個高斯先驗圖。由於該模型達到了最先進的性能，處於不同顯著性預測基準的頂端，因此我們將其應用於本研究。

2.2 Image captioning

近年來，計算機視覺研究者利用遞歸神經網絡對圖像和視頻進行自動描述，給出了一種視覺內容的矢量化描述，它可以自然地處理文字序列[3，24，55]。在深度學習模型之前，句子的生成主要是通過識別視覺概念、對象和屬性來完成的，然後使用預定義的模板將這些概念、對象和屬性組合成句子[29、57、58]。另一種策略是將圖像字幕設置爲檢索問題，將訓練集中最接近的註釋語句轉移到測試圖像中，或者將訓練字幕分割成多個部分，然後重新組合以形成新的句子[11、17、37、47]。顯然，這些方法限制了可能輸出的多樣性，不能滿足自然語言的豐富性。事實上，最近的字幕模型把句子的生成看作是一個機器翻譯問題，在這個問題中，來自卷積網絡的圖像的視覺表示通過遞歸神經網絡翻譯成語言對應的圖像。

基於這一思想的第一個模型之一是Karpathy等人[24]提出的，其中句子片段通過多模態嵌入與它們描述的視覺區域對齊。然後，將這些對應關係作爲多模態遞歸神經網絡的訓練數據，學習生成對應的句子。相反，Vinyals等人[55]開發了一個端到端的模型，該模型被訓練爲在給定輸入圖像的情況下最大化目標句子的可能性。Xu等人[56]介紹了一種圖像字幕的方法，該方法結合了一種機器注意的形式，通過這種方式，生成的LSTM可以在生成相應字幕的同時聚焦於圖像的不同區域。他們提出了兩個不同版本的模型：第一個稱爲“軟注意”的模型使用標準的反向傳播技術以確定性的方式進行訓練，而第二個稱爲“硬注意”的模型則通過強化學習範式通過最大化變分下界進行訓練。

Johnson等人[22]討論了密集字幕的任務，它在自然語言中共同定位和描述顯著的圖像區域。該任務包括當描述由單個單詞組成時的目標檢測問題和當一個預測區域覆蓋整個圖像時的圖像字幕顯示任務。You等人[59]提出了一種語義注意模型，其中，給定一幅圖像，卷積神經網絡提取自上而下的視覺特徵，同時檢測諸如區域、對象和屬性等視覺概念。圖像特徵和提取的視覺概念通過遞歸神經網絡進行組合，最終生成圖像標題。不同於以往的預測單個標題的作品，Krause等人[26]引入了描述圖像的整個段落的生成。最後，Shetty等人[45]利用對抗性訓練將字幕生成器的訓練目標從再現地面真實字幕改爲生成一組與人類生成的字幕不可區分的字幕。

在本文中，我們有興趣證明在生成圖像描述時使用顯著性和上下文信息的重要性。我們的解決方案屬於神經注意字幕結構的一類，在實驗部分，我們將其與基於[56]中提出的軟注意方法構建的標準注意模型進行比較。

2.3 Visual saliency and captioning

只有少數其他先前的作品研究了人眼注視對生成圖像描述的貢獻。探索這一思想的第一項工作是在[48]中提出的，它提出了一種神經注意字幕結構的擴展。特別是，提出的模型包含了人類的注視點（通過眼睛跟蹤設備獲得）而不是計算出的顯著性地圖來生成圖像字幕。這種策略主要受眼睛注視和標題註釋的雙重需要。目前，只有SALICON數據集[21]是Microsoft COCO數據集[33]的一個子集，它既有人類描述，也有顯著性圖。

相反，Ramanishka等人[41]引入了一種編碼器-解碼器字幕模型，在該模型中，沒有顯式注意層的預測字幕和任意查詢語句生成時空熱圖。他們將這些熱圖稱爲顯著圖，儘管它們是網絡的內部表示，與人類的注意力無關。實驗表明，儘管計算開銷較低，但與標準字幕注意模型相比，性能上的增益是不一致的。

在[52]中提出了一種不同的方法，探索人類或模型的圖像描述是否與顯著性一致，以及顯著性是否有利於圖像字幕。爲此，他們提出了一種利用移動滑動窗口和均值池作爲聚合策略，利用相應的顯著性圖增強圖像特徵的字幕模型。與無顯著性基線的比較沒有顯示出顯著的改善（特別是在微軟COCO數據集上）。

在這篇文章中，我們的目標是通過在一個神經注意的字幕結構中直接結合顯著性圖來增強圖像字幕。與以往利用人類注視點的模型不同，我們得到了一個更通用的體系結構，它可以使用任何圖像字幕數據集進行潛在的訓練，並且可以預測任何輸入圖像的字幕。在我們的模型中，機器注意過程被分成兩個不同的和不相關的路徑，一個用於顯著區域，另一個用於上下文。我們通過大量的實驗證明，顯著性和上下文的結合可以增強不同藝術數據集上的圖像字幕。

3 WHAT IS HIT BY SALIENCY?

人類的凝視既被諸如顏色、對比度和紋理之類的低級暗示所吸引，也被諸如面孔和文本之類的高級概念所吸引[6，23]。由於使用了深度網絡和大規模數據集，目前最先進的顯著性預測方法能夠有效地融合所有這些因素，並預測非常接近人眼注視獲得的顯著性地圖[9]。在這一部分中，我們通過聯合分析顯著性和語義分割圖，定性地研究了顯著性模型實際擊中或忽略了圖像的哪些部分。這將激發使用顯著性預測作爲字幕模型的附加條件的需求。

爲了計算顯著性地圖，我們採用了[9]中的方法，該方法在麻省理工學院顯著性[5]和顯著性數據集[21]等流行顯著性基準上顯示了良好的結果，並在2017年贏得了LSUN挑戰賽。無論如何，值得一提的是，本節的定性結論可以應用於任何最先進的顯著性模型。

由於語義分割算法並不總是完全準確的，因此我們對三個語義分割數據集進行了分析，其中人類註釋者對區域進行了分割：Pascal-Context [36]，Cityscapes [7]和Look in Person（LIP）[ 13]數據集。第一個包含沒有特定目標的自然圖像，而其他兩個分別集中在城市街道和人體部位。特別是，Pascal-Context 爲Pascal VOC 2010數據集[10]提供了附加註釋，其中包含10103個訓練和驗證圖像以及9637個測試圖像。通過提供整個場景的註釋，它超越了最初的Pascal語義分割任務，並且通過使用400多個不同的標籤來註釋圖像。相反，Cityscapes數據集由記錄在來自50個不同城市的街道場景中的一組視頻序列組成。它爲5000幀提供高質量的像素級註釋，爲20000幀提供粗略註釋。該數據集使用30種特定於街道的類別（例如汽車，道路，交通標誌等）進行註釋。最後，LIP數據集專注於人的語義細分，並提供了50,000張帶有19個語義人的部分標籤的圖像。圖像包含從Microsoft COCO數據集[33]中裁剪出來的人物實例，並分別在訓練，驗證和測試集中分爲30462、10000和10000張圖像。對於我們的分析，我們僅考慮Pascal-Context和LIP數據集的訓練圖像和驗證圖像，以及Cityscapes數據集的5,000像素級帶註釋幀。對於某些樣本圖像，圖1顯示了三個數據集上的預測顯着性圖和相應的語義分段。

圖1。我們的模型[9]對Pascal-Context[36]（第一行）、Cityscapes[7]（第二行）和LIP[13]（最後一行）的樣本圖像進行了地面真值語義分割和顯著性預測。

我們首先研究每個數據集的最顯著類和最不顯著類。由於存在相對於圖像總數出現次數較少的語義類，因此我們只考慮相關的語義類（即出現次數至少爲N次的類）。由於數據集的大小不同，我們將Pascal-Context和LIP數據集的N設置爲500，將Cityscapes數據集的N設置爲200。爲了收集預測的顯著性到達語義類的次數，我們通過對每個映射的像素值進行閾值化來對其進行二值化。低閾值導致具有擴張的顯著區域的二值化地圖，而高閾值在固定點周圍創建小的顯著區域。因此，我們使用兩個不同的閾值來分析最顯著類和最不顯著類。我們選擇一個接近0的閾值來爲每個數據集找到最不顯著的類，而選擇一個接近255的值來代替最顯著的類。

圖2和圖3顯示了最顯著類和最不顯著類在顯著性擊中屬於類的區域的次數百分比。可以看出，根據所考慮的數據集，有不同的分佈。例如，對於帕斯卡語，最顯著的類別是動物（如貓、狗和鳥）、人和車輛（如飛機和汽車），而最不顯著的類別是天花板、地板和燈光。至於城市景觀數據集，汽車絕對是最顯著的一類，70%的時候受到顯著性的影響。相反，其他所有的課程都達不到40%。在LIP數據集中，最顯著的類都是上半身的人體部位，而最不顯著的類都是下半身。正如所料，人們面臨的是那些受顯著性影響最大的事件，其絕對發生率接近90%。可以觀察到場景中最重要或最可見的對象被顯著性擊中，而背景中的對象和圖像的上下文本身通常被忽略。這就導致了這樣一種假設，即在我們通常希望標題中包含上下文的情況下，顯著區域和非顯著區域對於生成圖像的描述都很重要，並且顯著性預測模型給出的顯著區域和上下文之間的區別可以改進標題顯示結果。

圖2和圖3根據顯着性擊中屬於某個類的區域的次數百分比顯示了最顯着的類和最不顯着的類。可以看出，根據所考慮的數據集有不同的分佈。例如，對於Pascal-Context，最顯着的類別是動物（例如貓，狗和鳥），人和車輛（例如飛機和汽車），而最不顯着的類別是天花板，地板和燈光。對於Cityscapes數據集，汽車絕對是最顯着的類別，其顯着性達到70％的次數。相反，所有其他類別均未達到40％。在LIP數據集上，最顯着的類別是上半身的所有人體部位，而最不顯着的類別都是在下半身。不出所料，人臉是受到顯着性影響最大的人，絕對發生率接近90％。作爲一般模式，可以觀察到場景中最重要或最明顯的對象被顯着性擊中，而背景中的對象以及圖像的上下文本身通常被忽略。這導致一個假設：鑑於我們通常希望上下文包含在標題中，並且顯着區域與上下文之間的區別由顯着性給出，因此顯着區域和非顯着區域對於生成圖像的描述都非常重要預測模型，可以改善字幕效果。

圖2 Pascal-Context, Cityscapes 和LIP數據集最突出的類別

圖3 Pascal-Context, Cityscapes 和LIP數據集上最不顯著的類。

我們還研究了物體大小與其顯著值之間的關係。在圖4中，我們將對象大小和顯著性值的聯合分佈繪製在三個數據集上，其中對象的大小簡單地計算爲由圖像大小規範化的像素數。可以看到，大多數低顯著性實例都很小；但是，高顯著性值集中在小對象和大對象上。綜上所述，一個物體的大小與其顯著性之間並不總是成比例的，因此不能僅僅通過觀察其大小來評估物體的重要性。在我們要處理的圖像字幕場景中，較大的對象對應於卷積架構最後一層中的較大激活，而較小的對象對應於較小的激活。由於顯著區域和非顯著區域可以具有可比較的激活，在字幕的生成期間，由顯著性預測模型給出的關於像素是否屬於顯著區域的監督可以是有益的。

圖4 對象大小和顯著性值的分佈（彩色觀看最佳）

4 SALIENCY AND CONTEXT AWARE ATTENTION

根據上一節的定性發現，我們開發了一個模型，其中利用顯着性來增強圖像字幕。在此，將生成的遞歸神經網絡逐步設置在顯着性模型預測的顯着空間區域上，並根據說明字幕生成過程中非顯着區域的作用的上下文特徵進行調節。在下文中，我們描述了整體模型。概述如圖5所示。

圖5 所述模型的概述。爲突出區域和上下文區域構建了兩種不同的注意路徑，以幫助模型構建描述兩個組件的字幕。

每個輸入圖像 $I$ 首先通過全卷積網絡進行編碼，該網絡在空間網格 $\{a_1，a_2，…，a_L\}$ 上提供一組高級特徵，每個特徵對應於圖像的空間位置。同時，利用文[9]中的模型提取出輸入圖像的顯著性映射，並對其進行降尺度以適應卷積特徵的空間大小，從而得到顯著區域的空間網格 $\{s_1，s_2，…，s_L\}$ ，其中 $s_i∈[0，1]$ 。相應地，我們還定義了上下文區域的空間網格， $\{z_1，z_2，…，z_L\}$ ，其中 $z_i=1-s_i$ 。在該模型下，不同位置的視覺特徵將根據其顯著性值進行選擇或抑制。

通過從LSTM層饋送和採樣單詞，逐個單詞地生成標題，單詞在每個時間步都取決於從輸入圖像中提取的特徵和顯着性圖。正式地，生成LSTM的行爲由以下方程式驅動：

$\mathbf{i}_{t}=\sigma\left(W_{v i} \hat{\mathbf{v}}_{t}+W_{w i} \mathbf{w}_{t}+W_{h i} \mathbf{h}_{t-1}+\mathbf{b}_{i}\right) \tag 1$

$\mathbf{f}_{t}=\sigma\left(W_{v f} \hat{\mathbf{v}}_{t}+W_{w f} \mathbf{w}_{t}+W_{h f} \mathbf{h}_{t-1}+\mathbf{b}_{f}\right) \tag 2$

$\mathbf{o}_{t}=\sigma\left(W_{v o} \hat{\mathbf{v}}_{t}+W_{w o} \mathbf{w}_{t}+W_{h o} \mathbf{h}_{t-1}+\mathbf{b}_{o}\right) \tag 3$

$\mathbf{g}_{t}=\phi\left(W_{v g} \hat{\mathbf{v}}_{t}+W_{w g} \mathbf{w}_{t}+W_{h g} \mathbf{h}_{t-1}+\mathbf{b}_{g}\right) \tag 4$

$\mathbf{c}_{t}=\mathbf{f}_{t} \odot \mathbf{c}_{t-1}+\mathbf{i}_{t} \odot \mathbf{g}_{t} \tag 5$

$\mathbf{h}_{t}=\mathbf{o}_{t} \odot \phi\left(\mathbf{c}_{t}\right) \tag 6$

其中，在每個時間步， $\hat{v}_t$ 表示通過考慮顯著區域 $\{s_i\}$ 和上下文區域 $\{z_i\}$ 的映射而從 $I$ 提取的視覺特徵。 $w_t$ 是輸入字， $h$ 和 $c$ 分別是LSTM的內部狀態和存儲單元。⊙表示元素的Hadamard積， $σ$ 爲sigmoid函數， $Ψ$ 爲雙曲正切tanh， $W_*$ 爲學習權矩陣， $b_*$ 爲學習偏差向量。

爲了給生成網絡提供視覺特徵，我們從機器注意文獻[56]中獲得靈感，並計算定長特徵向量 $\hat{v}_t$ 作爲具有時變權重 $α_{ti}$ 的空間特徵 $\{a_1，a_2，…，a_L\}$ 的線性組合，通過softmax算子在空間範圍上規範化：

$\hat{\mathbf{v}}_{t}=\sum_{i=1}^{L} \alpha_{t i} \mathbf{a}_{i} \tag 7$

$\alpha_{t i}=\frac{\exp \left(e_{t i}\right)}{\sum_{k=1}^{L} \exp \left(e_{t k}\right)} \tag 8$

在每個時間步，注意機制基於前一個LSTM狀態選擇圖像的一個區域，並將其饋送給LSTM，從而使單詞的生成取決於該特定區域，而不是由整個圖像驅動。

理想情況下，我們希望權重 $α_{ti}$ 能夠意識到位置 $a_i$ 的顯著性和上下文價值，並且以LSTM的當前狀態爲條件，LSTM的內部狀態 $h_t$ 可以很好地編碼LSTM。這樣，生成網絡可以根據輸入圖像所屬的顯著區域或上下文區域以及當前生成狀態，聚焦於輸入圖像的不同位置。當然，簡單地將注意力權重與顯著性值相乘會導致上下文丟失，這是字幕生成的基礎。相反，我們將注意力權重 $e_{ti}$ 分成兩個貢獻，一個用於顯著性，另一個用於上下文區域，並使用兩個完全連接的網絡來學習這兩個貢獻（圖5）。在概念上，這相當於建立兩個獨立的注意路徑，一個用於突出區域，另一個用於上下文區域，這些區域被合併以產生最終的注意。總的來說，模型遵循以下等式：

$e_{t i}=s_{i} \cdot e_{t i}^{s a l}+z_{i} \cdot e_{t i}^{c t x} \tag 9$

其中 $e_{t i}^{s a l}$ 和 $e_{t i}^{c t x}$ 分別是顯著區域和上下文區域的注意權重。顯著性和上下文的注意權重計算如下：

$e_{t i}^{s a l}=v_{e, s a l}^{T} \cdot \phi\left(W_{a e, s a l} \cdot \mathbf{a}_{i}+W_{h e, s a l} \cdot \mathbf{h}_{t-1}\right) \tag {10}$

$e_{t i}^{c t x}=v_{e, c t x}^{T} \cdot \phi\left(W_{a e, c t x} \cdot \mathbf{a}_{i}+W_{h e, c t x} \cdot \mathbf{h}_{t-1}\right) \tag{11}$

注意，我們的模型學習了顯著區域和上下文區域的不同權重，並將它們組合成一個最終的注意圖，其中顯著區域和非顯著區域的貢獻合併在一起。類似於經典的軟注意方法[56]，所提出的生成LSTM可以聚焦於圖像的每個區域，但是注意過程意識到每個位置的顯著性，因此對顯著區域和上下文區域的聚焦由顯著性預測器的輸出驅動。

4.1 Sentence generation

用一個與詞彙表大小相等的one-hot向量對單詞進行編碼，然後通過學習到的線性變換將其投影到嵌入空間中。由於句子有不同的長度，它們還用特殊的字符串開始和字符串結束標記來標記，以使模型知道特定句子的開始和結束。

給定一個用一個熱向量編碼的圖像和句子 $(y_0，y_1，…，y_T)$ ，生成的LSTM被一步一步地限制在標題的前 $t$ 個單詞上，並被訓練生成標題的下一個單詞。我們優化的目標函數是序列上正確單詞的對數似然性:

$\max _{\mathbf{w}} \sum_{t=1}^{T} \log \operatorname{Pr}\left(\mathbf{y}_{t} | \hat{\mathbf{v}}_{t}, \mathbf{y}_{t-1}, \mathbf{y}_{t-2}, \ldots, \mathbf{y}_{0}\right) \tag {12}$

其中 $w$ 是模型的所有參數。單詞的概率通過應用於LSTM輸出的softmax層建模。爲了降低維數，使用線性嵌入變換將一個one-hot向量投影到LSTM的輸入空間，並將LSTM的輸出投影到字典空間。

$\operatorname{Pr}\left(\mathbf{y}_{t} | \hat{\mathbf{v}}_{t}, \mathbf{y}_{t-1}, \mathbf{y}_{t-2}, \ldots, \mathbf{y}_{0}\right) \propto \exp \left(\mathbf{y}_{t}^{T} W_{p} \mathbf{h}_{t}\right) \tag{13}$

其中 $W_p$ 是用於將LSTM輸出空間轉換爲字空間的矩陣， $h_t$ 是LSTM的輸出。

在測試時，LSTM被賦予一個字符串開始標記作爲第一個時間步的輸入，然後根據預測的分佈對最可能出現的單詞進行採樣並作爲下一個時間步的輸入，直到字符串結束標記被預測爲止。

5 EXPERIMENTAL EVALUATION

在這一部分中，我們進行了定性和定量實驗，以驗證所提出的模型對不同基線和其他顯著性增強字幕方法的有效性。首先，我們描述用於評估我們的解決方案的數據集和度量，並提供實現細節。

5.1 Datasets and metrics

爲了驗證提出的顯著性和上下文感知注意的有效性，我們對五個流行的圖像字幕數據集進行了實驗：SALICON[21]、Microsoft COCO[33]、Flickr8k[17]、Flickr30k[60]和PASCAL-50S[53]。

Microsoft COCO由12萬多張圖片組成，這些圖片分爲訓練集和驗證集，每個圖片都有使用Amazon Mechanical Turk生成的至少五個句子。SALICON是這個任務的一個子集，它是爲視覺顯著性預測任務創建的。由於它的圖片來自Microsoft COCO數據集，每個圖片至少有五個標題可用。總的來說，它包含10000個訓練圖像，5000個驗證圖像和5000個測試圖像，其中每個圖像的眼睛注視是用鼠標移動模擬的。在我們的實驗中，我們只對兩個數據集使用訓練集和驗證集。Flickr8k和Flickr30k數據集分別由8000和30000個圖像組成。每幅圖片都有五個註釋句子。在我們的實驗中，我們隨機爲這兩個數據集選擇1000個驗證圖像和1000個測試圖像。PASCAL-50S數據集爲UIUC PASCAL語句提供了附加註釋[42]。它由1000張來自PASCAL-VOC數據集的圖片組成，每個圖片都用50個人類書寫的句子註釋，而不是原始數據集中的5個。由於樣本數量有限，爲了與其他字幕顯示方法進行公平的比較，我們首先在Microsoft COCO數據集上對模型進行預訓練，然後在該數據集的圖像上進行測試，而不需要進行特定的微調。

爲了進行評估，我們使用了圖像字幕中通常使用的四個自動指標：BLEU [40]，ROUGEL [32]，METEOR [2]和CIDEr [53]。 BLEU是n-gram之間精確度的一種修改形式，用於將候選翻譯與多個參考翻譯進行比較。我們使用 mono-grams、bi-grams、three-grams和four-grams組合的BLEU評估我們的預測。 ROUGEL在考慮序列n-gram最長同時出現的情況下計算F測度。取而代之的是，METEOR基於unigram精度和查全率的調和平均值，而查全率的加權高於精度。它還具有其他度量標準中未發現的一些功能，例如詞幹和同義詞匹配以及標準的精確單詞匹配。最後，CIDEr計算在生成的標題中找到的n-gram與在參考句子中找到的n-gram之間的平均餘弦相似度，並使用TF-IDF對其加權。爲確保公平評估，我們使用Microsoft COCO評估工具包1計算所有分數。

5.2 Implementation details

每幅圖像都通過一個卷積網絡進行編碼，卷積網絡計算出一堆高級特徵。我們使用流行的ResNet-50[16]，在ImageNet數據集[44]上訓練，計算輸入圖像上的特徵映射。特別地，ResNet-50由49個卷積層組成，分爲5個卷積塊和1個完全連接層。由於要保持空間維數，我們從最後一個卷積層提取特徵映射，忽略了完全連接層。ResNet模型的輸出是2048個通道的張量。爲了限制特徵映射的數量和學習參數的數量，我們將這個張量輸入另一個卷積層，其中包含512個濾波器，核大小爲1，然後是ReLU激活函數。與保持固定的ResNet-50的權重不同，最後一個卷積層的權重根據[12]初始化並在所考慮的數據集上微調。在LSTM中，在文[1]中提出的初始化之後，應用於輸入的權重矩陣通過從0均值和 ${0.01}^2$ 方差的高斯分佈中採樣每個元素來初始化，而應用於內部狀態的權重矩陣則通過使用正交初始化來初始化。向量 $v_e^{sal}$ 和 $v_e^{ctx}$ 以及所有偏置向量 $b_*$ 被初始化爲零。

爲了預測每個輸入圖像的顯著性圖，我們利用我們的顯著性注意模型（SAM）[9]，它能夠根據不同的顯著性基準預測精確的顯著性圖。然而，我們注意到，在使用其他最先進的顯著性方法時，我們並不期望顯著的性能變化。

如前所述，我們對五個不同的數據集進行了實驗。對於SALICON數據集，由於其圖像的大小都是480×640，所以我們保留了這些圖像的原始大小，從而得到L=15×20=300。對於由不同大小的圖像組成的所有其他數據集，我們將輸入大小設置爲480×480，得到L=15×15=225。由於顯著性映射是在所提出的顯著性上下文注意模型中開發的，因此我們將顯著性映射的大小調整爲15×20，而對於所有其他數據集，我們將其大小調整爲15×15。

所有實驗都是通過使用Adam優化器[25]和Nestorov動量[49]進行的，初始學習率爲0.001，批量大小爲64。隱藏狀態維度設置爲1024，嵌入大小設置爲512。對於所有數據集，我們選擇的詞彙表大小等於在訓練和驗證標題中出現至少5次的單詞數。

5.3 Quantitative results and comparisons with baselines

爲了評估我們的方法的性能，並研究其背後的假設，我們首先與經典的軟注意方法進行比較，然後建立三個基線，在其中顯著性被用於條件生成過程。

軟注意[56]：通過軟注意機制計算LSTM的視覺輸入，以在圖像的不同位置注意，而不考慮顯著和非顯著區域。一個單一的前饋網絡負責產生注意值，用式14代替式9就可以得到注意值：

$e_{t i}=v_{e}^{T} \cdot \phi\left(W_{a e} \cdot \mathbf{a}_{i}+W_{h e} \cdot \mathbf{h}_{t-1}\right) \tag{14}$

這種方法等同於[56]中提出的方法，儘管有些實現細節不同。爲了得到一個公平的評價，我們使用ResNet-50模型的激活來代替VGG-19模型，並且我們不包括雙隨機正則化技巧。由於這個原因，我們所報告的數值結果與原始文獻中的數值結果不具有直接可比性（我們的數值通常高於原始數值）。

顯着性池化：來自CNN的視覺特徵在每個位置上乘以相應的顯着性值，然後求和，而無需任何注意機制。在這種情況下，LSTM的視覺輸入與時間無關，並且顯着區域比非顯着區域具有更多的焦點。與等式7相比，可以將其視爲“軟注意力”的一種變體，其中網絡始終專注於顯着區域。

$\hat{\mathbf{v}}_{t}=\hat{\mathbf{v}}=\sum_{i=1}^{L} s_{i} \mathbf{a}_{i} \tag{15}$

注意顯著性：這是軟注意方法的一個擴展，其中顯著性用於調節每個位置的注意值。因此，注意機制的條件是以更高的概率關注顯著區域，而忽略不顯著區域。

$e_{t i}=s_{i} \cdot v_{e}^{T} \cdot \phi\left(W_{a e} \cdot \mathbf{a}_{i}+W_{h e} \cdot \mathbf{h}_{t-1}\right) \tag{16}$

注意顯著性和語境（並權重共享）：注意機制知道顯著和語境區域，但用於計算顯著和語境注意得分的權重是共享的，不包括 $v^T$ 向量。注意，如果這些也被分享，這個基線就相當於軟注意。

$e_{t i}=s_{i} \cdot e_{t i}^{s a l}+\left(1-s_{i}\right) \cdot e_{t i}^{c t x} \tag {17}$

$e_{t i}^{s a l}=v_{e, s a l}^{T} \cdot \phi\left(W_{a e} \cdot \mathbf{a}_{i}+W_{h e} \cdot \mathbf{h}_{t-1}\right) \tag {18}$

$e_{t i}^{c t x}=v_{e, c t x}^{T} \cdot \phi\left(W_{a e} \cdot \mathbf{a}_{i}+W_{h e} \cdot \mathbf{h}_{t-1}\right) \tag {19}$

我們還可以直接注意到，我們提出的方法相當於最後一個基線，沒有權重共享。

在表1中，我們首先比較我們的方法相對於軟注意方法的性能，以評估提案相對於已發表的技術狀態的優越性能。我們報告所有數據集的結果，包括驗證集和測試集，以及第5.1節中描述的所有自動度量。可以看出，所提出的方法總是在很大程度上克服了軟注意方法，從而在實驗上證實了有兩條獨立的注意路徑的好處，一條用於顯著區域，另一條用於非顯著區域，以及顯著性作爲字幕顯示條件的作用。特別是，在METEOR metric上，相對改進的範圍從PASCAL-50S上的 $\frac{32.9-32.8}{32.8}=0.30 \%$ 到Flickr8k驗證集的 $\frac{20.3-19.8}{19.8}=2.53 \%$ 。

表1。圖像字幕結果。與傳統的機器注意機制相比，顯著性和語境（顯著性+語境注意）的制約促進了標題的生成。這裏的“軟注意”表示我們使用模型的相同視覺特徵重新實現了[56]。

相反，在表2中，我們將我們的方法與包含顯著性的三個基線進行比較。首先，可以觀察到顯著性集合基線的表現通常比軟注意差，從而證明始終關注顯著位置不足以獲得良好的字幕效果。當插入注意時，就像在顯著性注意基線中一樣，數值結果要高一些，這要歸功於時間依賴性注意，但離完整模型所達到的性能還有很大的差距。還可以注意到，儘管這個基線沒有考慮上下文，但它有時比軟注意模型（例如在SALICON的情況下，關於流星度量）獲得更好的結果。最後，我們注意到，關注顯著性和語境以及權重分擔的基線比關注顯著性要好，進一步證實了包含語境的好處。有兩個完全分離的注意路徑，比如在我們的模型中，無論如何都是重要的，正如最後一個基線相對於我們的方法的數值結果所證明的那樣。

表2。與使用顯著基線的圖像字幕進行比較。雖然使用注意策略是有益的（參見顯著性集中和顯著性注意），顯著性和上下文對字幕都很重要。對顯著性和語境使用不同的注意路徑也會提高表現（參見顯著性+語境注意（權重共享）與顯著性+語境注意）。

5.4 Comparisons with other saliency-boosted captioning models

我們還將與在圖像描述生成過程中加入顯着性的現有字幕模型進行比較。特別是，我們將其與[48]中提出的利用人體固定點的模型進行了比較，與Tavakoli等人的工作[52]進行了比較，後者報告了Microsoft COCO和PASCAL-50S的實驗，以及Ramanishka等人的提議。 [41]使用卷積激活作爲顯着性的代理。

表3顯示了三個數據集在BLEU@4、METEOR、ROUGEL和CIDEr方面的結果。我們將我們的解與[52]中給出的模型的兩個版本進行了比較。GBVS版本利用使用傳統自底向上模型計算的顯著性映射[15]，而另一個版本包括從深卷積網絡提取的顯著性映射[51]。

Table 3. Comparison with existing saliency-boosted captioning models.

結果表明，本文提出的顯著性和上下文注意模型能夠克服其他方法在不同度量上的不足，從而確定了包含兩條注意路徑的策略。特別是在流星測量方面，我們在SALICON數據集上得到了4.57%的相對改進，在microsoftcoo上得到了5.53%的相對改進，在PASCAL-50上得到了8.94%的相對改進。

5.5 Analysis of generated captions

我們進一步收集由我們的方法和軟注意模型生成的字幕的統計數據，以定量評估生成字幕的質量。首先，我們定義了三個度量標準來評估兩個模型生成的標題語料庫的詞彙量以及它們與基本事實之間的差異：

詞彙量：在所有標題中生成的唯一單詞數；
新句子百分比：訓練集中未出現的生成句子百分比；
不同句子的百分比：兩個模型描述不同的圖像的百分比；

然後，我們通過以下兩個指標來衡量兩個模型中每個模型生成的標題集的多樣性[45]：

Div-1：一組標題中唯一的Unigram數與同一組中單詞數的比率。越高越多樣化。
Div-2：一組標題中唯一雙字圖的數量與同一組中單詞的數量之比。越高越多樣化。

在表4中，我們比較了由我們的模型生成的標題集和由軟注意基線生成的標題集。雖然我們的模型在SALICON、COCO和PASCAL-50S上的詞彙量略有減少，但是兩個模型生成的標題經常是不同的，從而證實了這兩種方法學習到了不同的標題模式。此外，軟注意方法的多樣性和新穎句子的數量被完全保留。

表4。統計詞彙大小和生成標題的多樣性。在兩個不同的機器注意路徑（顯著性+上下文注意）中包含顯著性和上下文，相對於傳統的機器注意方法（軟注意），產生了不同的標題，同時保留了幾乎相同的多樣性統計。

5.6 Analysis of attentive states

在我們的模型中，位置的選擇是基於顯著注意路徑和上下文注意路徑之間的競爭（見公式9）。爲了研究這兩條路徑是如何相互作用並有助於單詞的生成，在圖6中，我們報告了來自Microsoft COCO數據集的幾個圖像中，這兩條路徑之間注意權重的變化。具體來說，對於每個圖像，我們報告每個時間步的 $e^{sal}_{ti}$ 和 $e ^{ctx}_{ ti}$ 值的平均值，以及其顯著性地圖的可視化。有趣的是，模型如何能夠正確地利用這兩種注意路徑來生成標題的不同部分，以及生成的單詞在大多數情況下如何與關注區域對應。例如，在第一圖像的情況下（“一組斑馬在草地上吃草”），在生成由顯著性捕獲的對應於“一組斑馬”的單詞期間，顯著性注意路徑比上下文路徑更活躍。相反，當模型必須描述上下文時（在草地上），顯著注意路徑相對於上下文注意路徑具有較低的權重。所有報告的圖像都可以觀察到同樣的情況；還可以注意到，生成的標題傾向於描述突出的對象和上下文，並且通常在上下文之前描述突出的部分，這也是最重要的部分。

圖6。注意權重的例子隨着標題的生成而在顯著性和上下文之間發生變化（以顏色最爲明顯）。圖片來自微軟COCO數據集[33]。

5.7 Qualitative results

最後，在圖7中，我們報告了從Microsoft COCO數據集中獲取的圖像的一些示例結果。對於每個圖像，我們報告相應的顯着性圖，以及由我們的模型和“軟注意力”基線與地面真相生成的字幕。可以看出，平均而言，由我們的模型生成的字幕與相應的圖像和人工生成的字幕更加一致，並且，如在上一節中所觀察到的，還描述了重要部分以及上下文。顯着性和上下文的結合也有助於該模型避免由於幻覺而導致的故障，例如在第四幅圖像的情況下，在該圖像中，Soft Attention模型預測的遠程控制未在圖像中顯示。我們的模型避免的其他失敗案例包括重複單詞（如第五張圖片）和描述上下文失敗（第一張圖片）。我們推測，模型在字幕生成過程中學會了參加的兩個單獨的注意力路徑的存在，比傳統的機器注意力方法更有效地避免了此類故障。

Fig. 7. Example results on the Microsoft COCO dataset [33].

爲完整起見，圖8中報告了所建議模型的一些故障案例。大多數故障發生在圖像的顯著區域沒有在相應的“地面真實”標題中描述時（例如在第一行中），從而導致性能損失。一些問題也出現在複雜的場景中（如在第四幅圖像中）。然而，我們觀察到，在這些情況下，軟注意基線不能預測正確和完整的字幕。

Fig. 8. Failure cases on sample images of the Microsoft COCO dataset [33].

6 CONCLUSION

提出了一種新的圖像字幕結構，該結構通過在顯著性預測模型的輸出上創建兩條注意路徑來擴展機器注意範式。第一個是突出區域，第二個是上下文區域：整個模型在標題生成過程中利用了這兩條路徑，根據需要更加重視突出區域或上下文區域。通過收集語義切分數據集的統計數據，研究了顯著性對上下文的作用，同時利用標準的自動度量方法，通過評估生成語料庫的多樣性和字典大小，對大規模字幕數據集的字幕模型進行了評估。最後，我們研究了這兩種注意路徑的激活情況，並證明它們逐字對應於對突出物體或生成標題中上下文的關注；此外，我們定性地評估了我們的方法生成的標題相對於軟注意生成的標題的優越性接近。雖然我們的重點是證明顯著性對字幕的有效性，而不是依賴於不同提示的跳動字幕方法，但我們指出，我們的方法可以很容易地融入到這些架構中。

Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention

Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention

1 INTRODUCTION

2 RELATED WORK

2.1 Visual saliency prediction

2.2 Image captioning

2.3 Visual saliency and captioning

3 WHAT IS HIT BY SALIENCY?

4 SALIENCY AND CONTEXT AWARE ATTENTION

4.1 Sentence generation

5 EXPERIMENTAL EVALUATION

5.1 Datasets and metrics

5.2 Implementation details

5.3 Quantitative results and comparisons with baselines

5.4 Comparisons with other saliency-boosted captioning models

5.5 Analysis of generated captions

5.6 Analysis of attentive states

5.7 Qualitative results

6 CONCLUSION

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

COCO_train2014_000000167126.jpg

Matlab fmincon

Matlab k-means

keras split tensor/slice tensor/分割tensor

Ubuntu系統監視器只能看到“程序名(Pocess Name)”欄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結