Storytelling from an Image Stream Using Scene Graphs

原創

2020-07-04 04:58

Ruize Wang, Zhongyu Wei, Piji Li, Qi Zhang, Xuanjing Huang. Storytelling from an Image Stream Using Scene Graphs. AAAI 2020: 9185-9192

論文鏈接： https://aaai.org/ojs/index.php/AAAI/article/view/6455/6311

本文介紹了復旦大學研究團隊在AAAI 2020上錄用的一篇關於多模態文本生成工作: 《Storytelling from an Image Stream Using Scene Graphs》，利用場景圖針對圖像序列進行故事生成。

該文章認爲將圖像轉爲圖結構的表示方法（如場景圖），然後通過圖網絡在圖像內和跨圖像兩個層面上進行關係推理，有助於表示圖像，並最終有利於描述圖像。實驗結果證明該方法可以顯著的提高故事生成的質量。

對於大多數人，觀察一組圖像然後寫一個語義通順的故事是很簡單的事情。儘管近年來深度神經網絡的研究取得了令人鼓舞的成果，但對於機器來說，這仍然是一件困難的事情。

近年來，視覺敘事(visual storytelling)越來越受到計算機視覺（CV）和自然語言處理（NLP）領域的關注。不同於圖像標註(image captioning)旨在爲單個圖像生成文字描述，視覺敘事任務則更具挑戰性，它進一步研究了機器如何理解一個圖像序列，並生成連貫故事的能力。

目前的視覺敘事方法都採用了編碼器-解碼器結構，使用通過一個基於CNN的模型提取視覺特徵，使用基於RNN的模型進行文本生成。其中有些方法引入了強化學習和對抗學習等方法，來產生更加通順、有表現性的故事。但是僅使用CNN提取到的特徵來表示所有的視覺信息，這不大符合直覺而且損害了模型的可解釋性和推理能力。

回想一下人是如何看圖寫故事的呢？人會先分辨出圖像上面有什麼物體，推理他們的關係，接下來把一個圖像抽象成一個場景，然後依次看觀察圖像，推理圖像間的關係。對於視覺敘事這個任務，本文認爲也可以採用類似方法。

本文認爲把圖像轉爲一種圖結構的表示（如場景圖），隨後在圖像內(within-image)和跨圖像(cross-image)這兩個層面上建模視覺關係，將會有助於表示圖像，並最終對描述圖片有所幫助。

圖1：一個基於場景圖的視覺敘事例子.

一、方法描述

圖2：提出的模型概述.

本文提出了一種基於圖網絡的模型SGVST (如圖2所示)，它可以在圖像內和跨圖像這兩個層面上建模視覺關係。

簡單來說，首先將圖像In通過Scene Graph Parser轉化爲場景圖Gn=(Vn, En)。場景圖包含了檢測到的物體Vn={vn,1,…,vn,k}，以及物體之間的視覺關係En。

如圖2所示，一個男人抱着一個孩子，那麼男人和孩子就可以作爲圖中的節點，他們的視覺關係作爲邊。接着將場景圖通過Multi-modal Graph ConvNet：在圖像內的層面，使用圖卷積神經網絡（GCN）來對場景圖中的節點特徵進行增強。在跨圖像層面，爲了建模圖像之間的交互，使用時序卷積神經網絡（TCN）來沿着時間維度進行卷積，進一步優化圖像的特徵表示。最後得到了集合了圖像內關係和跨圖像關係的relation aware的特徵，輸入到層次化解碼器（Hierarchical Decoder）中來生成故事。

圖3：層次化解碼器概述.

二、實驗結果

1. 定量分析

表1：在VIST數據集上的不同模型性能比較. *代表直接優化RL獎勵，比如CIDEr分數, 代表通過交叉熵損失(MLE)優化.

表1顯示了不同模型在七個自動評價指標上的性能。結果顯示作者提出的SGVST模型幾乎在所有指標上都優於其他用MLE和RL優化的模型具有更好的性能，SGVST的BLEU-1、BLEU-4和METEOR得分比其他基於MLE優化的最佳方法分別提高了3.2%、2.5%和1.4%，這被認爲是在VIST數據集上的顯著進步。這直接說明將圖像轉換爲基於圖的語義表示（如場景圖），有利於圖像的表示和高質量的故事生成。

本文還進行了消融實驗，和提出模型的5個變種模型進行了比較，來驗證模型每個模塊部分的重要性。從表1中可以看在不使用GCN和TCN的時候，模型性能有一個很大的下降。這說明圖網絡在該模型中是最爲重要的，因爲它可以給模型帶來了推理視覺關係的能力。

2. 定性分析

圖4：不同模型定性分析的例子.

圖4展示了3種不同模型生成的故事和真實故事的樣例。第一行是輸入的一個圖像序列。第二行是生成出的場景圖。第三行是不同模型生成的故事。可以看出SGVST生成的故事更通順，而且信息更豐富、更有表現力。

圖5：每種顏色代表了相對應模型產生的故事，被評價人員認爲更加像人寫的、更有表現力所佔的比例。灰色的”Tie”代表了打平.

表2：人工評估結果。在AMT上的評估人員根據對每個問題的同意程度來評價故事的質量，評分範圍爲1-5.

爲了更好地評價生成的故事的質量，作者通過Amazon Mechanical Turk（AMT）進行了兩種人工評價。（1）圖5是不同模型兩兩比較的一個實驗結果，給評價人員2個生成出的故事，然後讓他來選擇哪一個寫的更好。（2）表2是在6個指標上進行的人工評估實驗結果。可以看出本文提出的模型和其他模型相比有着巨大的優勢，而且和人類相比，也取得了有競爭力的表現。

四、總結

1. 將圖像轉爲圖結構的語義表示(如場景圖)，可以更好的表示圖像，有利於高質量的故事生成。

2. 本文提出了一個基於圖網絡的模型，可以將圖像轉爲場景圖，然後在圖像內和跨圖像兩個層面上進行關係推理。

3. 實驗結果表明，本文提出的模型取得了優秀的表現，並且能產生信息更加豐富、語言更加連貫的故事。

4. 場景圖生成的質量限制了本文模型的性能，如果能有更好的場景圖生成方法，本文模型的性能還能取得進一步提高。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Storytelling from an Image Stream Using Scene Graphs

香儂讀 | 讓預訓練模型學習知識：使用多學習器增強知識建模能力

Storytelling from an Image Stream Using Scene Graphs

代替wget的多線程下載利器——axel

【Python】Non-ASCII character '\xe6' 錯誤解決方法

【深度學習筆記】（一）Mac下TensorFlow安裝及環境搭建

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結