合肥 VALSE 2019 筆記 workshop:基於視覺和常識的深度推理

對於做PPT的借鑑
（1）觀察別人怎樣講自己工作的難點
（2）視覺推理任務的擴展：朱文武老師的小樣本分類，張含望老師的X visual reasoning, 史建波老師的first person view
（3）結合沈春華老師CVPR19的工作，regard VQA as reading comprehension, 做多任務學習，結合caption進來
（4）推理更多的是提供一個program，layout，它應該具體到爲什麼東西服務，即輸出，無論是目標檢測或者VQA等任務，目前推理還是非常基礎的，情景是無窮無盡的，若要結合外部知識，需要一個強大的視覺知識庫做支撐。視覺推理，以前是沒有視覺推理這樣一個方向與課題的，因爲近年來vision-language任務的興起，視覺推理更加火熱。視覺更側重於感知，而VQA具體有哪些應用，梅濤老師認爲暫時沒看到可以直接大規模應用的場景，而吳琦老師舉的例子依舊是盲人輔助，但是可能我們目光不能太過於短淺，未來對於多Agent交互肯定有所裨益。
（5）吳飛老師，最淺層的推理是關聯學習，比如公雞鳴叫與太陽昇起的關係，數據驅動的方式是一種演繹推理。
（6）結合scene graph來做，關注一個GQA。
（7）張含望老師提到的一個推理偏差概念，他的PPT會放出來，他認爲下一步推理應該關注常識。
（8）推理模塊化，多次被提到，modular network值得關注
（9）史建波老師認爲機器應該理解人的想法，無論是打籃球判斷運動軌跡和採取的行動還是街景行走軌跡預測（那個街角下一步預測，可以作爲自己視覺推理的一個任務例子），史建波老師是這樣看待常識的：知道什麼是可能的，什麼是不可能的。
（10）下午視覺推理workshop，劉偲老師提的幾個問題：（1）視覺推理與傳統推理的區別，視覺起到的作用
《1》視覺推理近年來很火，一方面是visual-language任務的興起，比如VQA等代表性任務
《2》對於low-level的視覺任務，比如檢測等已經解決得比較好了，因此可以開始關注更高層的推理，視覺很多任務可用，比如檢測，分割，識別等，因此可以進行更加複雜的任務，這使得視覺推理成爲了需要和可能。
《3》推理更像是人類思考的一個過程，我們的左腦更加註重符號，數學，語言，我們的右腦更加註重視覺，視覺起到的是一個感知的作用，觀察世界的作用，視覺信號後連接推理模塊。
《4》如果認爲比如detection任務已經做得很好，轉化爲scene graph，那麼visual reasoning裏面視覺的元素已經很少了。
《5》爲什麼reasoning，希望機器像人一樣工作和思考，很多工作都可以歸於reasoning，比如問答，圖靈測試。
《6》感知和認知的不同 --王鵬老師
《7》應該明白視覺的邊界是什麼，即什麼是該描述的，什麼是外在的？
《8》learn to read 1-4年級，reading to learn更大年紀，以讀書爲例，reasoning，我們不僅要書之間尋找關係，還要學會問問題而不是回答問題，另一個更加重要的方面我們需要想象。
（10）學commonsense，我們從哪兒獲得knowledge？
大量文章訓練mining，bias也可能是一種knowledge，常識知識庫：DPedia, freebase
（11）常識是什麼，直覺的物理的，心理學上的，從數據中來（歸納推理），演繹推理，像人一樣。
（12）常識怎樣表達，目前都是以knowledge graph，怎樣更合適地表達是個問題。
（13）常識怎麼用，目前是embedding和regularization，還可以怎樣用呢？
（14）對於常識與視覺的關係而言，認爲其中是斷然離不開文本的，以小時候認狗爲例，我們會被告知這是狗，是離不開文本的。
（15）劉偲問：開門與關門怎樣通過圖像來問答？這可能需要的是video qa，不僅是一個時序關聯的問題，還需要結合因果推理。
（16）visual reasoning與modular network，後者通過分解爲子模塊，爲推理提供了一種解題思路，modular是磚，model是框架。
我問的兩個問題：
（1）怎樣理解視覺推理，VQA可能的應用場景？ --吳琦
（2）怎樣看待VCR這個工作？ --張含望
（3）怎樣看待常識，認知和推理 --梁小丹

合肥 VALSE 2019 筆記 workshop:基於視覺和常識的深度推理

面經整理-小網絡總結

實驗bug彙總

Pytorch LSTM實現

推理論文彙總學習

GPU顯存老是溢出的問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結