模型“大”且技术“统一”旷视科技探寻基础科研新未来!

核心提示来源:中国网科技  在于日前落下帷幕的2022旷视技术开放日活动上,旷视联合创始人、CEO印奇表示,“2+1”的AIoT核心技术科研体系,是支撑旷视未来不断走向AIoT商业化成功的重要基石。  其中,由“基础算法科研”和“规模算法量产”组成

来源:中国网科技

在近日落下帷幕的2022年旷视科技开放日上,旷视联合创始人兼CEO殷琦表示,“2+1”AIoT核心技术研究体系是支撑旷视未来不断走向AIoT商业成功的重要基石。

其中,由“基础算法研究”和“规模算法量产”组成的AI技术体系是这套AIoT核心技术研究体系的重要组成部分。

在相当长的一段时间内,“基础算法研究”的工作对“解放思想,实现认知升级和技术突破”起到了极大的推动作用。回顾计算机视觉的发展,不难发现每一代基础模型的突破都极大地推动了视觉AI的发展,促进了算法在更多场景的应用。

在旷视,“基础算法研究”和“基础模型研究、开发和部署”的重担落在了旷视研究院基础模型组组长张翔宇及其团队成员的肩上。

张翔宇坦言“一个好的基础模型对于整个系统的性能提升是决定性的。怎样才能设计出高速高精度低功耗的基本模型?培养自己的科研品味和研究方法,不断实现认知的突破和升级,是非常重要的。”

解放思想,开辟创新之路

迄今为止,张翔宇的成绩单相当亮眼。在CVPR/ICCV/ECCV/NIPS/TPAMI等顶级会议/期刊上发表论文50余篇,被谷歌学术引用超过17万次,在ResNet、ShuffleNet、RepVGG等神经网络模型设计方面持续高效输出。

在他的带领下,基本模型组每年都在一步步往上走,成功实现了组内“一文一会”的小目标。CV2022,他们提出了基于大核的CNN和MLP的设计范式,包括动态卷积神经网络焦点稀疏CNN;;此外,他们还在ECCV 2022上发表了关于自动驾驶感知新网络PETR的初步工作。张翔宇强调,“PETR几乎没有人为的设计元素,但它处理基于同一架构的多视图、多时间、多任务和多模态输入。”

回顾这些在神经网络研究领域发挥重要作用的技术创新,我们不禁惊叹于他的研究团队紧跟商业世界发展脉搏的预测能力和前瞻眼光。但把一切简单地归结于运气显然是不公平的。事实上,得益于老师孙健博士的指导,他和他的朋友们总是试图找到那些“反直觉”的开创性认知,将其固化为知识,最终沉淀为技术信念。

“一旦你发现你以前从未想过的事情可以做到,它往往可以带来突破性的结果。”张翔宇以《变形金刚》和CNN的学术争议为例。“在模型设计上,学术界都在关注《变形金刚》和CNN的区别,争论到底哪个更好用。但是我们看到了两者的相似之处。我们觉得跟是不是变形金刚或者CNN关系不大,重要的是有没有大的感觉场。同时也说明模型架构的优化特性往往比呈现能力更重要。”

沿着这个思路往下想,不难发现“一旦模型统一,AI加速器的设计将非常简单,即一个模型可以应用于各种设备和任务,但它带来的挑战也是显著的。例如,为了在多个任务上共享一个模型和一个算法,我们必须加深对这个系统和这个模型的理解,这样我们就可以抽象出共性,然后我们就可以用一个统一的模型来实现过去为所有系统分别设计模型的性能。”

这样的认知进步,就是科技创新之路的前奏。

阅读文学修养研究体系

「反直觉」从何而来?事实上,突破性的发现在科研界是罕见的。很多“新事物”不过是新瓶装旧酒,是过去已经发现的一些现象的另一种表现。“没有好的想法,很难发表论文,发现前人做过研究”永远是研究者最头疼的问题。

在基础课题组成员看来,碰运气是极小概率事件,根本方法是改变自己的先验知识,不断改变自己的思维。

张翔宇高度赞扬了加州大学伯克利分校电子工程和计算机科学系马毅教授的文献考古研究方法。“马毅老师会一直沿着文档链,去寻找某个想法最早来自哪个文档。虽然很多文献都发现了一些事实,但一篇论文通常只是传达了一个有限的结论,作者在其他情况下可能意识不到这个事实的意义。找到现有知识体系无法解释的‘点’,深入挖掘这些事实背后的关系,尝试用自己的语言解释并有机连接,从而形成自己的技术信念和研究体系。”

要把分散在不同文档中的“珍珠”串起来,需要很大的努力。在RACV 2021举办的讨论变形金刚的圆桌论坛上,张翔宇展示了一个非常严谨的大脑地图,引导观众跟随他的思维。

每个盒子里不止一个学者发表过论文,讨论过观点,但他把所有文章的论证过程、引文、论据沿着结论之外的论证过程串联起来,然后分析一些与陈词滥调完全相反的事实。

饶是如此,“有自己的想法,做点不一样的事”还是要在实践中经历各种考验。人工智能技术不断发展,修正和反思自己的技术信仰已经成为日常工作。不仅要全面收集信息,还要知道目前的技术天花板达到了哪里,要自己做实验来验证,也就是“有问有答”。正如张翔宇所说,“有些关键技术总是一步到位,技术路线的选择总是有风险的。”

在刚刚结束的旷视科技2022开放日上,张翔宇明确指出“大”和“统一”是视觉AI基础研究的新趋势。对此,他强调,忽略“大”的定义,是为了以创新的算法发挥大数据、大计算的力量,拓展AI认知的边界;但是,如果能够用统一的算法和统一的模型对各种数据和任务进行表示和建模,就可以得到一个简单、强大、通用的系统。

坚持原创,做理想的实干家。

作为孙健博士的“弟子”,张翔宇坦言,自己的科研品味、科研价值观、科研心态乃至团队沟通合作能力,几乎都是向“孙老大”学习的。正因如此,他一直认为,“能够独立思考,拒绝盲目跟风;预测能力强,敢于决定研究路线;基本功扎实,知道怎么做才是对症的”等等都是人工智能领域高端人才的必备素质。

基本型号组的科研氛围,可能也就当是这些能力的实践版吧。遵循计算机视觉的主要任务逻辑,基础模型组的研究方向集中在通用图像模型、自动驾驶模型、计算摄影模型和视频理解模型四个方面。团队成员可以选择两种模式中的一种:参与项目和自由探索。

项目有明确的时间节点,会定期回顾和跟踪进度。更需要大家齐心协力,及时解决问题。而自由探索则是基于团队成员自身的兴趣,充分发挥他们的主观能动性来选择课题。张翔宇在小组中负责“定方向”和“给细节”,但他说,他更重要的责任是维持小组成员可以自由做自己喜欢的事情的氛围,激发每个人的创造力。

我们踏入深度学习的浩瀚海洋已经10年了。沿着前人开创的道路,昔日的青年学生终于成长为独立的科研工作者,形成了自己的技术信仰。不久前,张翔宇决定正式将基地模联的名称改为基金会模联。仅一字之差,就体现了基础模型组研发大型可视化模型的野心。

在藐视技术开放日演讲的最后,张翔宇表示,基础科学研究将始终坚持原创、实用、本质的科研价值观。“只有实现原创,才能突破现有技术的认知边界,只有实用,才能真正将科研成果转化为产品,转化为实用价值。只有发现本质,才能从众多表象中看到型号背后的创新,更好地实现“大”和“统一”的基础型号研发。”

这种说法符合迪法恩斯研究院始终奉行的“技术信仰和实用价值”的理念。十年磨一剑,“星星之火,可以燎原”。

最后,对于对计算机视觉研究感兴趣的年轻人,张翔宇也根据自己的经验和小组里的情况给出了四点干货建议:

广泛的知识积累。大量阅读文献极其重要。“就我接触过的世界知名学者而言,没有一个人的阅读量惊人。现在很多人搞科研不看论文,这是不对的。”因此,在基本模型组内,所有成员都必须参加每周的“论文阅读”,并按时提交解读报告。

对问题的敏锐感觉。在阅读大量原始文献的基础上,要有收集知识,发现问题的能力。“一篇有价值的论文,肯定有一些点是我的知识体系无法解释的,所以我会记录下来。以后再看其他文献,一旦遇到类似或相反的情况,我会反思是因为实验做得不对还是隐含了以前没有意识到的细节,还是在这里是一种新的认知。”

扎实的数学基础。扎实的数学基础可以提高AI研究的上限,但数学知识在毕业后很难抽出很长时间来补习。因此,他鼓励在校学生努力打下坚实的数学基础。为了防止忘记数学知识点,张翔宇每半年左右就会把本科水平的课本习题刷一遍,以保持感觉。

纯科研心态。无法消化论文产出压力而产生的焦虑,是大多数人放弃科研的主要原因。但科研有趣的地方在于,从无知到理解,从无知到知识,论文只是这个过程的副产品,要保持科研的纯粹初心。

2023迪法恩斯校园招聘进行中。欢迎有意加入旷视学院的同学投简历,一起做纯粹的事情。

本文图片由旷视科技授权中国网使用。

 
友情链接
鄂ICP备19019357号-22