本週AI熱點回顧:百度ActBERT刷新五項SOTA、CVPR 2020華人一作包攬最佳論文、最佳學生論文...

01

CVPR 2020華人一作包攬最佳論文、最佳學生論文,中國作者佔39%,清華高居第一

在剛剛開幕的 CVPR 2020 上,最佳論文、最佳學生論文等獎項悉數公佈,來自牛津大學的吳尚哲等人獲得了最佳論文獎,本科畢業於上海交通大學、現爲西蒙弗雷澤大學博士一年級學生 Zhiqin Chen 等人獲得最佳學生論文。

雖然今年改爲了線上,但全球 CV 社區依然在關注這個頂會的優質內容以及最佳論文等獎項。剛剛,本屆大會的最佳論文、最佳學生論文等獎項公佈。此外,大會官方也對外介紹了今年的接收論文、參會人數、熱門研究主題等數據。

首先,在論文方面,本屆 CVPR 主會議共收到 6656 篇論文投稿,相比去年增加了超過 20%,爲了處理如此多的論文,大會共招募了 3664 名評審,以及 198 名領域主席。最終共有 1470 篇論文被接收,錄用率約 22%,創下十年以來的最低記錄——去年的錄取比例是 25%。

今年的最佳論文獎項由牛津大學的研究者獲得,獲獎論文是《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》。

這項研究提出了一種基於原始單目圖像學習 3D 可變形物體類別的新方法,且無需外部監督。


論文的第一作者吳尚哲是香港科技大學 2014 級本科生,導師爲鄧智強和戴宇榮,主要研究圖像轉換 / 生成,並曾在商湯、騰訊優圖和谷歌實習。2018 年完成本科學業後,22 歲的吳尚哲同時收到牛津大學、蘇黎世聯邦理工學院、洛桑聯邦理工學院的博士項目全額獎學金 Offer,最終選擇加入牛津大學視覺幾何組,師從歐洲計算機科學家第一人 Andrew Zisserman 及其弟子 Andrea Vedaldi 深耕計算機視覺領域,目前就讀博士二年級。

今年的最佳學生論文獎由來自西蒙弗雷澤大學和谷歌研究院的三位研究者摘得,獲獎論文是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》。

  • 論文鏈接:

    https://arxiv.org/pdf/1911.06971.pdf

  • 代碼地址:

    https://github.com/czq142857/BSP-NET-original

論文一作 Zhiqin Chen 本科畢業於上海交通大學,現爲西蒙弗雷澤大學博士一年級學生。他的主要研究興趣是計算機圖形學,專攻幾何建模和機器學習。

最佳學生論文講了什麼?

多邊形網格在數字 3D 領域中無處不在,但它們在深度學習革命中僅扮演了次要角色。學習形狀生成模型的領先方法依賴於隱函數,並且只能在經過昂貴的等值曲面處理過程後才能生成網格。爲了克服這些挑戰,該研究受計算機圖形學中經典空間數據結構 Binary Space Partitioning(BSP)的啓發,來促進 3D 學習。

信息來源:機器之心

02

刷新五項SOTA,百度ActBERT:基於動作和局部物體的視頻文本特徵學習模型

全球計算機視覺頂會 CVPR 2020 上,百度共計有 22 篇論文被接收。這篇 Oral 論文中,百度提出了 ActBERT,該模型可以學習敘述性視頻進行無監督視頻文本關係,並提出糾纏編碼器對局部區域、全局動作與語言文字進行編碼。最終在 5 項相關測評任務上取得了 SOTA 結果。

ActBERT 在下游視頻和語言任務上,即文本視頻片段檢索、視頻描述生成、視頻問答、動作步驟定位等任務上明顯優於其他技術,展示了其在視頻文本表示方面的學習能力。

 

論文:《ActBERT: Learning Global-Local Video-Text Representations》

 

論文鏈接:

http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf

 

現有利用 BERT 訓練方式進行視頻語言建模一般通過量化視頻幀特徵的方式,通過聚類離散化將視覺特徵轉化爲視覺單詞。但是,詳細的局部信息,例如,互動對象,在聚類過程中可能會丟失,防止模型進一步發現細粒度的視頻和文字對應關係。本文提出 ActBERT 從配對視頻序列中挖掘全局和局部視覺線索和文字描述,它利用豐富的上下文信息和細粒度的關係進行視頻 - 文本聯合建模,其貢獻有三點:

 

首先,ActBERT 整合了全局動作,局部區域與文本描述。諸如「剪切」、「切片」之類的動作對於各種視頻相關的下游任務是有益處的。除了全局動作信息,結合本地區域信息以提供細粒度的視覺提示,區域提供有關整個場景的詳細視覺線索,包括區域對象特徵,對象的位置。語言模型可以從區域信息中受益以獲得更好的語言和視覺一致性。

此外,提出四個訓練任務來學習 ActBERT。預訓練後的 ActBERT 被轉移到五個與視頻相關的下游任務,並定量地顯示 ActBERT 達到了最先進的性能。

 

ActBERT 以一種自我監督的方式進行聯合視頻文本建模。該方法直接爲全局和局部視覺信息建模,以進行細粒度的視覺和語言關係學習。ActBERT 將信息的三個來源作爲輸入,並使用了新穎的糾纏編碼器進一步增強三個源之間的交互。五個視頻文本基準測試的定量結果證明了 ActBERT 的有效性。未來可以通過設計更強大的視頻和文本學習模塊來提升 ActBERT,並將其應用到視頻動作識別和檢測中。

信息來源:機器之心

03

PPDE英雄帖!廣邀全球開發者執開源之槳,匯百川成海

在2020年5月20日WAVE SUMMIT 2020深度學習開發者峯會上,百度AI技術生態部總監劉倩表示:

“我們希望有越來越多的開發者技術專家參與到飛槳社區建設,帶動更多開發者踐行開源理念,引領技術潮流,共建繁榮社區。”

而百度爲廣大開發者打造的舞臺便是PPDE(PaddlePaddle Developers Experts),飛槳開發者技術專家的榮譽認證體系。

開源自當開放,百度PPDE計劃便是一個真正開放的社區。秉持開源理念,PPDE面向所有開發者敞開大門,只要你對開源有熱情並願意爲之分享和付出,PPDE便能回饋你更多。

無論你是誰,是推動技術應用創新的全球飛槳開發者,或是推動開源社區發展的極客或者開源項目committer,是科研機構孜孜不倦鑽研的科學家,或桃李滿天下的高校老師,是新興科技公司創始人、CTO、技術領袖,或是編程開發與技術分享兼備的技術博主、up主……只要你願意,便能站上這個舞臺。

從幕後的開發者走到臺前確實不容易,你還需要一些技巧。百度爲PPDE成員們提供了神祕大禮包,包括提供技術支持、比賽指導等專人服務權益。同時PPDE Club也會定期舉辦線上線下活動,不僅可以和飛槳技術團隊密切交流,還有一定機率捕獲神祕技術大咖!

當然,技術和進步是開源永恆的主題,百度PPDE也設置了特色進階成長體系。當你的技術水平和開源貢獻不斷提升時,可以不斷進階解鎖新的權益!你甚至有機會參與全球遊學、頂會交流等,有機會進入百度孵化器及核心AI人才培養計劃,還有機會參與頂級項目支持,比如擁有1000萬基金、1000萬算力、100億流量加持的星辰計劃等,成長爲真正的頂級專家!

不必豔羨他人的精彩,你也一樣可以是開發者之典範!點擊下方“閱讀原文”或掃描二維碼,加入百度飛槳PPDE,與志同道合者共同踏入開源新領域,走進這片屬於高手的殿堂吧!

信息來源:飛槳PaddlePaddle

04

杜克大學研發新 AI 工具,馬賽克照片有望被還原

杜克大學研究人員開發了一種新的人工智能工具,這款工具可以將模糊的、無法識別的人臉圖像經由計算機生成高清晰度肖像,細節更加精細。

這套工具主要使用了機器學習工具中的“生成式對抗網絡”,它不會先獲取一張低分辨率圖像然後慢慢增加細節,而是會破壞人工智能生成的高分辨人像樣本,在縮小到相同大小之後,儘可能尋找與輸入圖像相似的面孔。這套工具可以在幾秒鐘內將一張16*16像素的人臉照片轉換成1024*1024分辨率的圖像。

信息來源:百度AI

05

本週論文推薦

【ACL 2020 | 百度】:基於對話圖譜的開放域多輪對話策略學習

Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

論文介紹:

論文中提出了基於對話圖譜(CG)的開放域多輪對話策略模型。其中,對話圖譜用來捕捉對話中的局部合適度以及全局連貫度信息。直觀上,策略模型以圖中的What-節點 (關鍵詞)作爲可解釋的離散狀態,進而模型得以主動規劃對話內容,進而提升多輪連貫度和可控性。

下圖是本文方法的框架圖,實線橢圓代表“What”節點,實線圓形代表“How”節點。對於當前句(圖中Message),策略模型首先將其定位到圖中的“What”節點(圖中綠色關鍵詞),進而主動規劃要聊的內容(圖中橙紅色的兩個節點),再經由生成模型產出回覆句(圖中Response)。

基於對話圖譜的開放域多輪對話策略模型

對話圖譜的構建主要包含點(What-節點和How-節點)的構建,以及邊的建設兩部分。首先,研究人員從對話語料中抽取關鍵詞作爲What-節點,關鍵詞使用開源的基於詞性等特徵的工具抽取,分別挖掘語料上下句中的關鍵詞,組成關鍵詞對,再基於共現頻率在What-節點之間建邊。

同What-節點直接表達“說什麼”不同,How-節點代表“怎麼說”,這類節點無法直接從語料中抽取。研究人員基於MMPMS[1]模型學習到的表達方式(隱變量)爲How-節點集合,再統計What-節點經常使用哪些How-節點解碼(表達出來),基於共現頻率建邊。

END

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章