中國科學自動化研究所王亮:面向複雜任務的視覺認知計算

6 月 21 日,由北京智源人工智能研究院主辦的 2020 北京智源大會正式開幕(直播入口: https://2020.baai.ac.cn ),大會爲期四天,各主題論壇和分論壇將圍繞如何構建多學科開放協同的創新體系、如何推進人工智能與經濟社會發展深度融合、如何建立人工智能安全可控的治理體系、如何與各國攜手開展重大共性挑戰的研究與合作等一系列當下最受關注的問題進行交流和探討。智源大會的第二天,中國科學自動化研究所王亮分享了主題爲“面向複雜任務的視覺計算”的演講,他就目前視覺任務中數據內容冗餘、模態之間的抑制性、模型泛化性差等具有挑戰性的問題進行了分享,以下內容根據王亮的演講整理而來,未經本人確認。

研究背景及挑戰性問題

複雜的視覺學習任務是指多模態的學習任務,基本的檢測問題在計算機視覺中研究得比較廣泛,但是複雜的視覺任務研究得比較少。複雜的視覺任務不只是牽扯到多模態的任務,比如說視覺、語音、文本等,還有很多實際的應用。對於這樣的例子,研究起來比較困難,不僅要處理在視覺任務中的高級語意問題,同時還要回答其他數據模態,比如文本、音頻等跨模態相互關聯的問題。針對這樣的問題,王亮列出了所面臨的四個挑戰性問題。

第一、數據內容的冗餘。正如左上角的例子所顯示,如何衡量一個圖像或對應的語意之間的相關聯性到底如何,圖像中“蔬菜”這個單詞和圖像中“蔬菜”區域是有語意關聯性的,但是其他的單詞和區域之間沒有直接的關聯作用。所以這樣的信息就是背景干擾信息,去除冗餘信息是非常困難的。

第二、跨模型的小樣本問題。王亮舉了一個關於小樣本的問題,對於很多數據庫來講,樣本的不均衡是個很大的問題,比如說我們要標註成對的數據,這樣是非常耗時、耗力的。

第三、模態之間的抑制性。對於視覺語言來講,也就是複雜的視覺語意鴻溝的問題。這裏,他列舉了幾個視覺和文本從區域到整體上不同的例子,各個層面都存在着複雜的對應關係,如何解決這種多模態的關係也是一個比較大的挑戰。

第四、模型的泛化性較差。一個模型可以適用一個任務,但是換了另一個任務可能就不適用了,哪怕是同一種模型,就目前相對高精度的研究也是要依靠複雜的模型堆疊處理的,在現實場景下,很難進行高效率部署。

從以上問題可以看出,在理解數據時,牽扯到了一些認知功能,比如信息的過濾、存儲、再使用或信息的推理等,這些功能不能僅僅通過當前的視覺感知計算來實現。

視覺感知計算

視覺感知計算是藉助生物學的神經網絡結構,來感知視覺信息中的形狀、色彩和運動一些相關的信息。這樣的感知層很難處理視覺任務中的信息冗餘以及複雜推理,即使目前最好的模型,在2019年時,在受限的數據庫上的測試結果準確率在70%左右,遠遠低於人的推理和感知能力。

在計算機視覺領域,很多人都在探索注意力機制或記憶力機制來解決一定的認知功能,從而可以實現信息的過濾、存儲和推理。那麼借鑑到複雜的人工智能視覺領域,就可以實現小樣本的學習、知識傳輸、關係推理以及做決定等。

注意力機制建模

下圖左側展示了soft attention機制如何來計算的模式,在實際應用中,soft attention要比hard attention效果更好一些,因爲hard attention經常要丟失一些信息。

記憶力建模

左側圖片的模式是端到端的記憶力模式,代表短時的記憶力建模,它只具備讀取的功能,不具備寫入的功能。而且記憶力特徵的初始化爲已有特徵的樣本,一般有一個support set來代表,右側是圖靈神經記憶,它代表對長時間記憶的建模,具有讀取和寫入的功能,記憶特徵的初始化一般從隨機特徵開始。

推理建模

推理建模最近應用比較多,主要是推理不同的視覺目標、屬性以及行爲之間的關聯關係。下列左側圖是個機器人導航,從一個出發點推理決策到目標點的過程。右側圖是一個視覺關係的推理過程。推理不是一次完成的,需要不斷地循環、迭代才能得到最終的結果。

近期研究

隨後,王亮又分享了他們團隊針對上述四種挑戰性問題進行的一系列研究。主要從三個方面進行了介紹:注意力機制建模、記憶力建模和推理建模。

圖像與句子的匹配其實是描述兩者之間的相似度。它可應用的場景比較多,比如圖像和句子之間的跨模態檢索問題、圖像描述問題、圖像的問答問題等。傳統做法是提取句子或圖像全局的特徵,然後使用結構化的損失函數或者是正則關係的目標函數來進行關聯。但是這裏面會有一些冗餘內容,如果使用圖像全局特徵,可能不太適合。王亮表示,他和團隊從另外一個視角,通過語意感念的提取,以及語意順序的組織來解決這樣的問題。

對於上述問題,王亮和團隊提出了一個模型,對於語意概念,採用多區域、多標籤的卷積神經網絡來實現。在語音順序的學習過程中,研究團隊使用了上下文調製的策略,加上句子生成
作爲指導。具體點來說,對於語意概念的預測,採用的是多邊形、多區域、多標籤來實現的。

對於語意順序的學習,採用的是上下文特徵作爲參考,全局的特徵標註了概念的空間關係,我們可以選擇性地平衡語意概念,平衡全局上下文之間的重要性。同時,利用句子的生成作爲指導,使用真實的語音順序來監督圖像表達的學習過程。實驗結果如下:

可視化案例:

視頻描述是指給定一個簡短的視頻,用一句話來描述視頻中所發生的內容。視頻描述有很多潛在的應用,最典型的案例之一就是導盲,攝像頭記錄下來道路的環境,然後解說道路上有沒有障礙物,把路況轉換成語言告訴給盲人。這裏面臨的挑戰是在視覺和語言之間如何架起一個映射關係,另外一個問題是如何建模一個視覺與文本之間的長時間依賴性建模。

LSTM用於空間序列建模是比較好的,但是它的缺點是不能很好地建模長時間依賴關係,所以王亮和團隊在工作中加入了注意力機制來解決這方面的問題。

實驗結果:

結語

注意力機制建模能夠選擇性地處理一些視覺信息,這樣可以減少冗餘信息的影響。記憶力機制能夠存儲一些沒有看到的歷史信息或先驗知識,重新利用這些信息來表達沒有看到的或小樣本的信息。推理建模能捕捉到屬性、目標等之間潛在的聯繫,能夠支持我們做一些更高層次的探究。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章