long term recurrent convolutional networks for visual recognition and description

這篇屬於很早就探索cnn+rnn解決high-level computer vision task的文章

Abstract

基於深度卷積網絡的模型已經在最近的圖像解釋任務中成爲主流,在這裏我們研究了是否recurrent model能夠有效的處理涉及到sequences以及視覺的各種任務。我們開發了一個新的recurrent convolutional 結構來實現大規模的學習任務,而且這個結構是end-to-end trainable, 針對video recogntion tasks,image description 以及image retrival 問題。現有的其他model一般對序列處理,採用假設固定的時空感受野或者簡單的時態均值,本文中的recurrent convolutional models 是double deep,並且是對於空間和時間組合的。這個model的優勢在於當目標的概念比較複雜或者訓練數據有限時候,學習出這種long term 的dependency是可能的。 long term RNN models能夠將可變長度的輸入(例如 video frames)映射成爲可變長度的輸出(e.g. natural languages). 我們的model與現代的visual convnet models 直接相連,可以同時學習temporal dynamics 以及convolutional perceptual representations. 我們的結果表明,這些models能夠實現state of the art results.

Introduction

本文提出 了一個model叫LRCN,結構如上圖所示。然後分別拿video activity recognition,image caption generation, video description tasks.我們在這裏表明LRCN通常可以應用到visual time-series建模。我們認爲在視覺任務中,Long term rnn 能夠提供明顯的提升,特別是存在大量的訓練數據來學習或者refine這個表達的時候。

Long term Recurrent Convolutional Network model

在這篇文章中,作者提出了LRCN model來組合deep hierarchical visual feature extractor和一個能夠學會識別自己synthesize temporal dynamic的model。 我們的LRCN模型通過將每一個輸入vt經過一個特徵轉化成爲一個固定長度的特徵表達。當我們獲得了visual input sequence:,然後就可以調用sequence model了。

對於sequence model,最一般的形式是用W將輸入xt,ht-1映射到輸出zt以及ht. 因此,這個inference必須是序列化運行的。我們將這種sequencial learning分成三個大類:


1. Sequenctial inputs, fixed outputs. 也就是說很多幀輸進去,但是隻輸出固定個數的輸出,比如action recognition。

2. Fixed inputs, sequential outputs. 也就是輸入的個數固定的,輸出是可變的。比如image captioning.

3. Sequential inputs, sequential outputs.  輸入個數不固定,輸出也不固定。比如video description。













發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章