如何在计算机视觉领域做开创性的前沿研究?

核心提示全球人工智能领域最具学术影响力的顶级会议之一 CVPR 2022召开在即。为了促进计算机视觉领域前沿研究的分享与交流,推动相关技术进步与发展,近年来微软亚洲研究院每年都会举办CVPR论文分享会。今年的CVPR 2022 论文分享会于4月23

全球人工智能领域最具学术影响力的顶级会议之一 CVPR 2022召开在即。为了促进计算机视觉领域前沿研究的分享与交流,推动相关技术进步与发展,近年来微软亚洲研究院每年都会举办CVPR论文分享会。

今年的CVPR 2022 论文分享会于4月23日圆满落幕。

此次分享会由微软智能信息处理西安交通大学实验室主办,微软亚洲研究院承办,中国计算机学会计算机视觉专委会、中国图象图形学会视觉大数据专委会、中国计算机学会计算机女计算机工作者委员会、中国图象图形学会女科技工作者工作委员会协办。本次活动不仅汇聚了来自清华大学、复旦大学、北京大学、中国科学技术大学、华中科技大学、西安交通大学、东南大学等高校的教授、研究员,还有来自微软亚洲研究院、粤港澳大湾区数字经济研究院等企业研究院的科研人员。20余位讲者通过网络结构、自监督+多模态预训练、多模态应用、3D 视觉、图像和视频生成、检测分割这六大主题,分享了他们在 CVPR 2022 上发表的最新成果。

每个主题的论文分享后,今年的分享会还首次设置了主题讨论环节,讲者们就该方向进行了针对性的讨论,探讨整个计算机视觉领域的现状与未来,同时也对观众的问题做出了解答。

此外,CVPR 2022 论文分享会还新增了中场主旨演讲环节,CVPR 2022 程序主席、便利蜂 CTO 和首席科学家华刚博士带来了以“You and Your Research Career with Computer Vision”为题的精彩报告。几位历年视觉顶会最佳论文的斩获者也一同共话“好论文是怎么炼成的”。接下来,让我们一起回顾一下 CVPR 2022 论文分享会的精彩内容吧!而后,华刚博士就在当下这个计算机视觉的黄金时代里“如何探索自己的计算机视觉研究生涯”进行了分享。

他表示,对于一个人的科研生涯而言,第一位是做研究,在研究社群最好的会议和期刊上发表的论文,基本上就代表了你在研究社群中的地位。也就是说,你发表的论文是你在研究领域的形象表征;另一方面则是你对研究社群的服务,例如当审稿人等。

科研生涯的评判标准是你对整个领域的影响力,即你给这个研究社群带来了什么改变,包括知识层面和服务层面。

而对于“科研生涯”和“职业生涯”的联系,华刚博士认为他们很大程度上是并行的,两者可以互相帮助与促进。华刚博士接下来还讨论了“工业界研究”与“学术界研究”的关系。他指出,两者的主要区别在于经费的来源,在学术界,经费主要来自政府的税收,而在工业界,研究的经费主要来自于公司的利润。

那么两者之间的桥梁是什么?华刚博士提到,我们需要建立一条路径,使研究可以产生一些商业上的影响。而对于“工业界是否也可以做基础研究”,华刚博士的回答是肯定的,但他也强调需要建立一个“可以将基础研究转化为商业目标”的架构。做基础研究并不意味着可以很长时间没有结果,需要设置一些里程碑,在完成最终目标地过程中持续产出阶段性的研究成果,将研究项目持续地推进到最终目标。最后,华刚博士分享了建立自己的主研究社群(Home research community)的重要性,并为广大研究者提出了四点建议

  • 如果你在工业界做研究,一定要有持久性,它需要你工作之外的额外精力。

  • 无论在公司还是在研究社群,要去理解这个系统是怎么运作的,这样会有助于你在系统内达成自己的目标。
  • 如果在工业界,要思考如何产生商业的影响,你的研究需要设计一条可以产生实际工业影响的路线。
  • 希望大家找到自己的主研究社群,也希望大家把计算机视觉当作自己的主研究社群。
视觉顶会最佳论文得主探讨“好论文是如何炼成的”今年的圆桌论坛邀请到了五位历年计算机视觉顶会最佳论文的斩获者,以“好论文是怎么炼成的?”为主题,分享了他们对于“做好的论文”和“做好的研究”的理解。

巧合的是,这些历年的“最佳论文”研究具有一定的传承性。最佳论文的回顾从 ICCV 99的 3D 几何研究开始,期间穿插讨论了近两年关于高维空间低秩表达的新书《High-Dimensional Data Analysis with Low-Dimensional Models》,书中所探讨的稀疏低秩表达曾在10多年前推动了当时视觉领域最火热的方向,而此后 CVPR 12 的获奖工作,恰好是 3D 几何和低秩表达的完美结合与总结。随着深度学习时代的到来,许多经典工作大量涌现,其中就包括2015年的获奖工作 HED,该工作以及前序的 DSN 工作都在尝试探索深度网络的有效训练问题。而这一问题在2016年的 ResNet 中得到了几乎完美的解决,CVPR 2017 的最佳论文 DenseNet 则是继 ResNet 之后卷积网络的又一突破。

3D 视觉主题中,三位讲者的论文分别关于动作捕捉,移动端三维重建,以及基于神经辐射场的三维图像生成。前两篇论文是贴合实际应用的研究,而后者则与最近几年火热的神经辐射场相关。讲者和嘉宾们在西安交通大学兰旭光老师的主持下针对“3D 视觉的杀手级应用是什么”以及“NerF 的现状与未来”等问题进行了讨论,并各自分享了自己的观点。

图像和视频生成主题中,三位讲者分别分享了降噪扩散模型方面的最新成果 VQ-Diffusion,以及基于 Transformer 的图像修复和超分辨率方法。其中降噪扩散模型(DDPM)已有取代 GAN 成为图像生成的未来趋势,而 Transformer 则继续在底层视觉问题中攻城掠地。随后讲者和嘉宾们还针对“现在图像生成有哪些成功或者潜在的应用”,“扩散模型的未来”等问题进行了讨论。

最后一个主题是检测分割,这也是一个广受关注的领域,分享的四个工作其中之二涉及 Transformer 结构特别是其解码器在检测分割领域的应用,而另外两个则是基于传统检测分割头部网络的工作。其中,来自粤港澳大湾区数字经济研究院的张磊老师克服美国深夜三点的时差,坚持现场演讲。他分享的 DN-DETR 是这个方向的一个重要工作,也是他最近在 COCO 物体检测中取得新纪录的 DINO 方法的重要前序工作。华中科技大学王兴刚老师则分享了他们团队将掩码图像建模应用于 ViT 检测的最新工作,这也与第二个主题中备受瞩目的掩码图像建模模型相呼应。

最后在主题讨论环节,活动邀请到了中科院张兆翔老师加入讨论,5位讲者和嘉宾们针对“在检测分割这样的下游任务中,网络结构是否会被 Transformer 一统天下,还是仍然会保持目前一个相对百花齐放的局面”等问题进行了精彩讨论和观点分享。CVPR 2022 分享会聚焦了近期计算机视觉的核心方向与重要研究,为与会者们带来了深度与广度并存的分享,而讲者们也通过彼此的思想交锋获得了研究认知的刷新。

 
友情链接
鄂ICP备19019357号-22