本周AI热点回顾:百度ActBERT刷新五项SOTA、CVPR 2020华人一作包揽最佳论文、最佳学生论文...

01

CVPR 2020华人一作包揽最佳论文、最佳学生论文,中国作者占39%,清华高居第一

在刚刚开幕的 CVPR 2020 上,最佳论文、最佳学生论文等奖项悉数公布,来自牛津大学的吴尚哲等人获得了最佳论文奖,本科毕业于上海交通大学、现为西蒙弗雷泽大学博士一年级学生 Zhiqin Chen 等人获得最佳学生论文。

虽然今年改为了线上,但全球 CV 社区依然在关注这个顶会的优质内容以及最佳论文等奖项。刚刚,本届大会的最佳论文、最佳学生论文等奖项公布。此外,大会官方也对外介绍了今年的接收论文、参会人数、热门研究主题等数据。

首先,在论文方面,本届 CVPR 主会议共收到 6656 篇论文投稿,相比去年增加了超过 20%,为了处理如此多的论文,大会共招募了 3664 名评审,以及 198 名领域主席。最终共有 1470 篇论文被接收,录用率约 22%,创下十年以来的最低记录——去年的录取比例是 25%。

今年的最佳论文奖项由牛津大学的研究者获得,获奖论文是《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》。

这项研究提出了一种基于原始单目图像学习 3D 可变形物体类别的新方法,且无需外部监督。


论文的第一作者吴尚哲是香港科技大学 2014 级本科生,导师为邓智强和戴宇荣,主要研究图像转换 / 生成,并曾在商汤、腾讯优图和谷歌实习。2018 年完成本科学业后,22 岁的吴尚哲同时收到牛津大学、苏黎世联邦理工学院、洛桑联邦理工学院的博士项目全额奖学金 Offer,最终选择加入牛津大学视觉几何组,师从欧洲计算机科学家第一人 Andrew Zisserman 及其弟子 Andrea Vedaldi 深耕计算机视觉领域,目前就读博士二年级。

今年的最佳学生论文奖由来自西蒙弗雷泽大学和谷歌研究院的三位研究者摘得,获奖论文是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》。

  • 论文链接:

    https://arxiv.org/pdf/1911.06971.pdf

  • 代码地址:

    https://github.com/czq142857/BSP-NET-original

论文一作 Zhiqin Chen 本科毕业于上海交通大学,现为西蒙弗雷泽大学博士一年级学生。他的主要研究兴趣是计算机图形学,专攻几何建模和机器学习。

最佳学生论文讲了什么?

多边形网格在数字 3D 领域中无处不在,但它们在深度学习革命中仅扮演了次要角色。学习形状生成模型的领先方法依赖于隐函数,并且只能在经过昂贵的等值曲面处理过程后才能生成网格。为了克服这些挑战,该研究受计算机图形学中经典空间数据结构 Binary Space Partitioning(BSP)的启发,来促进 3D 学习。

信息来源:机器之心

02

刷新五项SOTA,百度ActBERT:基于动作和局部物体的视频文本特征学习模型

全球计算机视觉顶会 CVPR 2020 上,百度共计有 22 篇论文被接收。这篇 Oral 论文中,百度提出了 ActBERT,该模型可以学习叙述性视频进行无监督视频文本关系,并提出纠缠编码器对局部区域、全局动作与语言文字进行编码。最终在 5 项相关测评任务上取得了 SOTA 结果。

ActBERT 在下游视频和语言任务上,即文本视频片段检索、视频描述生成、视频问答、动作步骤定位等任务上明显优于其他技术,展示了其在视频文本表示方面的学习能力。

 

论文:《ActBERT: Learning Global-Local Video-Text Representations》

 

论文链接:

http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf

 

现有利用 BERT 训练方式进行视频语言建模一般通过量化视频帧特征的方式,通过聚类离散化将视觉特征转化为视觉单词。但是,详细的局部信息,例如,互动对象,在聚类过程中可能会丢失,防止模型进一步发现细粒度的视频和文字对应关系。本文提出 ActBERT 从配对视频序列中挖掘全局和局部视觉线索和文字描述,它利用丰富的上下文信息和细粒度的关系进行视频 - 文本联合建模,其贡献有三点:

 

首先,ActBERT 整合了全局动作,局部区域与文本描述。诸如「剪切」、「切片」之类的动作对于各种视频相关的下游任务是有益处的。除了全局动作信息,结合本地区域信息以提供细粒度的视觉提示,区域提供有关整个场景的详细视觉线索,包括区域对象特征,对象的位置。语言模型可以从区域信息中受益以获得更好的语言和视觉一致性。

此外,提出四个训练任务来学习 ActBERT。预训练后的 ActBERT 被转移到五个与视频相关的下游任务,并定量地显示 ActBERT 达到了最先进的性能。

 

ActBERT 以一种自我监督的方式进行联合视频文本建模。该方法直接为全局和局部视觉信息建模,以进行细粒度的视觉和语言关系学习。ActBERT 将信息的三个来源作为输入,并使用了新颖的纠缠编码器进一步增强三个源之间的交互。五个视频文本基准测试的定量结果证明了 ActBERT 的有效性。未来可以通过设计更强大的视频和文本学习模块来提升 ActBERT,并将其应用到视频动作识别和检测中。

信息来源:机器之心

03

PPDE英雄帖!广邀全球开发者执开源之桨,汇百川成海

在2020年5月20日WAVE SUMMIT 2020深度学习开发者峰会上,百度AI技术生态部总监刘倩表示:

“我们希望有越来越多的开发者技术专家参与到飞桨社区建设,带动更多开发者践行开源理念,引领技术潮流,共建繁荣社区。”

而百度为广大开发者打造的舞台便是PPDE(PaddlePaddle Developers Experts),飞桨开发者技术专家的荣誉认证体系。

开源自当开放,百度PPDE计划便是一个真正开放的社区。秉持开源理念,PPDE面向所有开发者敞开大门,只要你对开源有热情并愿意为之分享和付出,PPDE便能回馈你更多。

无论你是谁,是推动技术应用创新的全球飞桨开发者,或是推动开源社区发展的极客或者开源项目committer,是科研机构孜孜不倦钻研的科学家,或桃李满天下的高校老师,是新兴科技公司创始人、CTO、技术领袖,或是编程开发与技术分享兼备的技术博主、up主……只要你愿意,便能站上这个舞台。

从幕后的开发者走到台前确实不容易,你还需要一些技巧。百度为PPDE成员们提供了神秘大礼包,包括提供技术支持、比赛指导等专人服务权益。同时PPDE Club也会定期举办线上线下活动,不仅可以和飞桨技术团队密切交流,还有一定机率捕获神秘技术大咖!

当然,技术和进步是开源永恒的主题,百度PPDE也设置了特色进阶成长体系。当你的技术水平和开源贡献不断提升时,可以不断进阶解锁新的权益!你甚至有机会参与全球游学、顶会交流等,有机会进入百度孵化器及核心AI人才培养计划,还有机会参与顶级项目支持,比如拥有1000万基金、1000万算力、100亿流量加持的星辰计划等,成长为真正的顶级专家!

不必艳羡他人的精彩,你也一样可以是开发者之典范!点击下方“阅读原文”或扫描二维码,加入百度飞桨PPDE,与志同道合者共同踏入开源新领域,走进这片属于高手的殿堂吧!

信息来源:飞桨PaddlePaddle

04

杜克大学研发新 AI 工具,马赛克照片有望被还原

杜克大学研究人员开发了一种新的人工智能工具,这款工具可以将模糊的、无法识别的人脸图像经由计算机生成高清晰度肖像,细节更加精细。

这套工具主要使用了机器学习工具中的“生成式对抗网络”,它不会先获取一张低分辨率图像然后慢慢增加细节,而是会破坏人工智能生成的高分辨人像样本,在缩小到相同大小之后,尽可能寻找与输入图像相似的面孔。这套工具可以在几秒钟内将一张16*16像素的人脸照片转换成1024*1024分辨率的图像。

信息来源:百度AI

05

本周论文推荐

【ACL 2020 | 百度】:基于对话图谱的开放域多轮对话策略学习

Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

论文介绍:

论文中提出了基于对话图谱(CG)的开放域多轮对话策略模型。其中,对话图谱用来捕捉对话中的局部合适度以及全局连贯度信息。直观上,策略模型以图中的What-节点 (关键词)作为可解释的离散状态,进而模型得以主动规划对话内容,进而提升多轮连贯度和可控性。

下图是本文方法的框架图,实线椭圆代表“What”节点,实线圆形代表“How”节点。对于当前句(图中Message),策略模型首先将其定位到图中的“What”节点(图中绿色关键词),进而主动规划要聊的内容(图中橙红色的两个节点),再经由生成模型产出回复句(图中Response)。

基于对话图谱的开放域多轮对话策略模型

对话图谱的构建主要包含点(What-节点和How-节点)的构建,以及边的建设两部分。首先,研究人员从对话语料中抽取关键词作为What-节点,关键词使用开源的基于词性等特征的工具抽取,分别挖掘语料上下句中的关键词,组成关键词对,再基于共现频率在What-节点之间建边。

同What-节点直接表达“说什么”不同,How-节点代表“怎么说”,这类节点无法直接从语料中抽取。研究人员基于MMPMS[1]模型学习到的表达方式(隐变量)为How-节点集合,再统计What-节点经常使用哪些How-节点解码(表达出来),基于共现频率建边。

END

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章