合肥 VALSE 2019 筆記 workshop:基於視覺和常識的深度推理

對於做PPT的借鑑
(1)觀察別人怎樣講自己工作的難點
(2)視覺推理任務的擴展:朱文武老師的小樣本分類,張含望老師的X visual reasoning, 史建波老師的first person view
(3)結合沈春華老師CVPR19的工作,regard VQA as reading comprehension, 做多任務學習,結合caption進來
(4)推理更多的是提供一個program,layout,它應該具體到爲什麼東西服務,即輸出,無論是目標檢測或者VQA等任務,目前推理還是非常基礎的,情景是無窮無盡的,若要結合外部知識,需要一個強大的視覺知識庫做支撐。視覺推理,以前是沒有視覺推理這樣一個方向與課題的,因爲近年來vision-language任務的興起,視覺推理更加火熱。視覺更側重於感知,而VQA具體有哪些應用,梅濤老師認爲暫時沒看到可以直接大規模應用的場景,而吳琦老師舉的例子依舊是盲人輔助,但是可能我們目光不能太過於短淺,未來對於多Agent交互肯定有所裨益。
(5)吳飛老師,最淺層的推理是關聯學習,比如公雞鳴叫與太陽昇起的關係,數據驅動的方式是一種演繹推理。
(6)結合scene graph來做,關注一個GQA。
(7)張含望老師提到的一個推理偏差概念,他的PPT會放出來,他認爲下一步推理應該關注常識。
(8)推理模塊化,多次被提到,modular network值得關注
(9)史建波老師認爲機器應該理解人的想法,無論是打籃球判斷運動軌跡和採取的行動還是街景行走軌跡預測(那個街角下一步預測,可以作爲自己視覺推理的一個任務例子),史建波老師是這樣看待常識的:知道什麼是可能的,什麼是不可能的。
(10)下午視覺推理workshop,劉偲老師提的幾個問題:(1)視覺推理與傳統推理的區別,視覺起到的作用
《1》視覺推理近年來很火,一方面是visual-language任務的興起,比如VQA等代表性任務
《2》對於low-level的視覺任務,比如檢測等已經解決得比較好了,因此可以開始關注更高層的推理,視覺很多任務可用,比如檢測,分割,識別等,因此可以進行更加複雜的任務,這使得視覺推理成爲了需要和可能。
《3》推理更像是人類思考的一個過程,我們的左腦更加註重符號,數學,語言,我們的右腦更加註重視覺,視覺起到的是一個感知的作用,觀察世界的作用,視覺信號後連接推理模塊。
《4》如果認爲比如detection任務已經做得很好,轉化爲scene graph,那麼visual reasoning裏面視覺的元素已經很少了。
《5》爲什麼reasoning,希望機器像人一樣工作和思考,很多工作都可以歸於reasoning,比如問答,圖靈測試。
《6》感知和認知的不同 --王鵬老師
《7》應該明白視覺的邊界是什麼,即什麼是該描述的,什麼是外在的?
《8》learn to read 1-4年級,reading to learn更大年紀,以讀書爲例,reasoning,我們不僅要書之間尋找關係,還要學會問問題而不是回答問題,另一個更加重要的方面我們需要想象。
(10)學commonsense,我們從哪兒獲得knowledge?
大量文章訓練mining,bias也可能是一種knowledge,常識知識庫:DPedia, freebase
(11)常識是什麼,直覺的物理的,心理學上的,從數據中來(歸納推理),演繹推理,像人一樣。
(12)常識怎樣表達,目前都是以knowledge graph,怎樣更合適地表達是個問題。
(13)常識怎麼用,目前是embedding和regularization,還可以怎樣用呢?
(14)對於常識與視覺的關係而言,認爲其中是斷然離不開文本的,以小時候認狗爲例,我們會被告知這是狗,是離不開文本的。
(15)劉偲問:開門與關門怎樣通過圖像來問答?這可能需要的是video qa,不僅是一個時序關聯的問題,還需要結合因果推理。
(16)visual reasoning與modular network,後者通過分解爲子模塊,爲推理提供了一種解題思路,modular是磚,model是框架。
我問的兩個問題:
(1)怎樣理解視覺推理,VQA可能的應用場景? --吳琦
(2)怎樣看待VCR這個工作? --張含望
(3)怎樣看待常識,認知和推理 --梁小丹

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章