CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、交互到共生

Alt

縱觀視覺與語言在這六年間的飛速發展史,它就彷彿是兩種不同文化(計算機視覺與自然語言處理)的碰撞與交融。這裏每一種文化最初的進化都是自洽的,即獨立地演化形成一套完備的視覺理解或語言建模體系;演化至今,我們當前所迎來的則是兩種文化間的交互,自此視覺理解和語言建模不再是簡單串聯的兩個模塊,而是通過互相的信息傳遞成爲共同促進的一個整體;對於視覺與語言的未來,則一定是聚焦於兩者更爲本質和緊密的共生,它所渴望的,將是掙脫開數據標註的桎梏,在海量的弱監督甚至於無監督數據上找尋兩者間最爲本質的聯繫,並以之爲起源,如「道生一,一生二,二生三,三生萬物」一般,賦予模型在各種視覺與語言任務上的生命力。

在這裏插入圖片描述
This monkey on the back of horse
在這裏插入圖片描述
Disney made the best cake of all time using projection
在這裏插入圖片描述
Tiny squid flopping around on the rocky bottom of fish tank

注:爲了更好地便於讀者理解和推動視覺語言領域的發展,將這幾年我們關於視覺與語言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])進行開源,這些對應的源碼都在 GitHub 上陸續公開(https://github.com/JDAI-CV/image-captioning),敬請關注!

緣起

視覺與語言,即視覺內容理解和自然語言表達,原本分屬於計算機視覺(CV)和自然語言處理(NLP)兩個不同的研究領域。然而在 2014 年,圖像描述生成(Image Captioning)猛然打破了兩者間的壁壘,憑藉着機器翻譯中經典的 encoder-decoder 模型一下貫通了從視覺內容到語言表達的轉換,爲 CV 和 NLP 領域的後繼者同時打開了一個不同模態交叉融合的新世界。

與機器翻譯中不同自然語言間的轉化相仿,圖像描述生成任務可以提煉爲從一種視覺語言(圖像特徵表達)到自然語言(描述語句)的轉換。現今主流的圖像描述生成算法的原型都可概括爲兩個模塊:視覺編碼器(Visual Encoder)語言解碼器(Language Decoder)。前者負責對視覺內容的理解,將視覺語言編碼爲富含語義信息的特徵表達,後者則依據編碼後的特徵表達來解碼出相應的語言描述。

自洽

各自文化的起點都是從蹣跚學步的孩童開始,漸漸形成一個完備自洽的體系。對於視覺和語言也是如此。身處深度學習的浪潮之中,視覺和語言各自也都在不斷地往前進步,譬如由底層紋理到高層語義的視覺內容理解(Visual Understanding),亦或是由單個詞出發演化至整個詞序列的語言建模(Language Modeling)。

在這一階段的視覺與語言模型本質上是視覺編碼器和語言解碼器的簡單串聯。以圖像描述生成任務舉例,該階段的研究重心往往是如何從圖像視覺內容中解析出更多的高層語義信息,並將這些語義信息融入到視覺編碼的過程中,以增強編碼器輸出的視覺特徵表達。這一研究思路也正是我們在前三年一系列工作的脈絡,即屬性(Attributes)-> 關係(Relation)-> 結構(Hierarchy)

在這裏插入圖片描述
如上圖,首先是 2017 年我們嘗試在視覺內容編碼的過程中引入高層的語義屬性,它不僅包含圖像中顯著的物體,也具備背景中的場景信息。在獲取高層語義屬性後,我們不僅可以在特徵層面將語義屬性特徵融合至編碼特徵中(LSTM-A [1]),也可以將識別的語義屬性詞直接「拷貝」到解碼出的描述中(LSTM-C [5])。接着在 2018 年,受到 Bottom-Up [6] 中通過物體檢測器獲取高性能的物體區域特徵的啓發,我們進一步去挖掘物體和物體之間的關係(GCN-LSTM [2]),構建出物體間語義和空間的關係圖,從而促進對圖像的理解。儘管物體間關係圖有效地引入了物體間關係的語義信息,但依然無法充分表達整個圖像所包含的豐富語義。故在 2019 年,我們提出了一種多層次的樹形語義結構(HIP [3]),它囊括了從語義分割後的物體實例到檢測後的物體區域再到整個圖像的不同層級之間的語義信息。通過這樣一種樹形結構可以實現對物體不同層次間語義關聯性的編碼,以解碼出更爲精準的描述文本。

交互

視覺與語言發展的第一階段自洽可以看做是每個文化獨立的發展史,所衍生的算法模型也大多是視覺編碼器和語言解碼器的簡單串聯。然而沒有一種文化可以在發展中獨善其身,互相調和與交互將是必然。因此現今的視覺與語言漸漸步入交互的階段,目的是促進視覺編碼器和語言解碼器間的信息交互。

注意力機制(Attention Mechanism)是不同模態間最典型的信息交互手段。它可以通過每一時刻解碼器的隱狀態來推斷當前編碼器中需要關注的圖像區域,以此幫助編碼器更好地理解圖像內容。如下圖,早期的注意力機制 soft-attention [7] 會依據條件特徵 Q(解碼器當前的隱狀態)與每一個圖像局部區域特徵 K 的線性融合來獲取該區域對應的注意力權重,再將每一個注意力權重作用於局部區域特徵 V 實現圖像特徵的聚合編碼。在這兩年也涌現了多種升級版本的注意力機制,比如自頂向下的 top-down attention(Bottom-Up [6])、同時捕捉多種注意力的 multi-head attention(Transformer [8])和利用門控進一步過濾注意力的 attention on attention(AoANet [9])。
在這裏插入圖片描述
當我們回顧傳統的注意力機制時,可以發現它往往利用線性融合來進行跨模態的特徵交互學習,所以其本質只挖掘了不同模態間一階的特徵交互,大大限制了注意力機制在視覺與語言這一複雜的跨模態內容推理任務中的作用。針對這個問題,我們在最新的 CVPR 2020 工作 X-LAN [4] 中打造了一個能實現高階特徵交互的注意力機制 X-Linear attention。它可以利用雙線性融合技術去挖掘不同模態間二階乃至更高階的特徵交互信息,以增強跨模態的內容理解

同時,該 X-Linear attention 可以作爲一個靈活的插件接入到目前流行的各種圖像描述生成模型中,極大地提升編碼器和解碼器在模態內和跨模態間的特徵交互能力。我們也在最爲權威的 COCO 在線評測系統上對所設計的圖像描述生成系統進行測試,在多個指標上均達到世界第一的水平(如下圖)。
在這裏插入圖片描述

共生

儘管視覺內容的理解可以隨着各種高性能網絡的設計和語義的深入挖掘不斷升級,視覺和語言間交互的方式也已經從傳統的 soft-attention 演化到捕捉高階信息交互的 X-Linear attention,但視覺與語言的技術發展依然逃脫不了深度學習對於訓練數據的貪婪。COCO12 萬+的圖像,約 60 萬的人工標註語句,天然制約了圖像描述生成技術進一步的發展。無論是對於更多物體的理解還是對於更廣泛語言的表達,亦或是更精細更本質的視覺-語言匹配,都需要更細粒度、更大規模的視覺與語言標註數據來支撐。那麼如何打破這一視覺語言數據的壁壘?如何突破當前算法的瓶頸?

當人們對某種文化進行反思甚至於迷茫的時候,就意味着一個新的起點將應運而生。因此在當下,視覺與語言也需要迎來一個新的階段,其目的是在更廣大的數據上挖掘出兩者間最爲本質的共生特質,從而促進不同模態間更爲自由的轉換。具體而言就是我們需要在海量的弱監督甚至於無監督視覺語言數據上去習得兩者間最爲本質的聯繫,然後再賦予模型在各種視覺與語言任務上的生命力。

目前剛剛興起的視覺語言預訓練(Vision-language pre-training)或許可以成爲破局的關鍵。藉助於海量網頁自動抓取的視覺語言數據,如 Conceptual Captions 和 Auto-captions on GIF,我們可以預訓練一個通用的編碼器-解碼器模型。正是因爲在海量數據上所學會的視覺語言共生特質,該預訓練模型可以全方位地賦能各種視覺與語言的下游任務,打破每一個下游任務中視覺與語言訓練數據的限制,實現了「大一統」的視覺與圖像間跨模態理解與轉換。目前,京東 AI 研究院的這些技術已在京東應用落地。例如商品圖像搜索和圖像審覈等場景,同時也正嘗試將視覺與語言技術融入任務驅動型多模態增強對話中,旨在提升人機交互效率和用戶體驗。

結語

好奇心是個人或者組織創造力的源泉,在權威圖像描述生成評測集 COCO 上的成績彰顯了京東 AI 研究院在視覺與語言領域的世界領先水平。京東智聯雲將一面以智能供應鏈、「新基建」等爲抓手,幫助政府、企業、個人進行數字化、網絡化、智能化轉型,成爲了與零售、物流、數字科技組成了京東四大核心業務版圖,是京東對外技術與服務輸出的核心通道。一面以「ABCDE」技術戰略爲基礎,保持前沿的技術技術研究和好奇心,即「以人工智能(AI)爲大腦、大數據(Big Data)爲氧氣、雲(Cloud)爲軀幹、物聯網(Device)爲感知神經,以不斷探索(Exploration)爲好奇心」。

參考文獻

[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei,「Boosting Image Captioning with Attributes.」In ICCV, 2017.

[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. “Exploring Visual Relationship for Image Captioning.” In ECCV, 2018.

[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Hierarchy Parsing for Image Captioning.」In ICCV, 2019.

[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei,「X-Linear Attention Networks for Image Captioning.」In CVPR, 2020.

[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.」In CVPR, 2017.

[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. “Bottom-up and top-down attention for image captioning and visual question answering.” In CVPR, 2018.

[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio,「Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.」In ICML, 2015.

[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut,「Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.」In ACL, 2018.

[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei.「Attention on Attention for Image Captioning.」In ICCV, 2019.

歡迎點擊“更多”瞭解京東智聯雲!

Alt

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章