在刚刚结束的2019国际智能技术峰会上,华为诺亚方舟实验室计算机视觉首席科学家田琦教授发表了主题为“大计算、大数据时代计算机视觉前沿探索”的演讲,并在随后的媒体交流中发表了自己对AI算法、数据、计算能力的看法。
自2018年6月底加入华为诺亚方舟实验室,担任计算视觉首席科学家以来,田琦教授一直引领着诺亚方舟实验室视觉方向的前沿研究,构建华为在各项视觉业务下的算法竞争力和护城河。不过,田琦教授和华为诺亚视觉实验室成员一直保持低调,鲜有媒体曝光。华为诺亚视觉实验室的具体研究方向和最新进展也很难从网上获得。
结合田琦教授在大会上的发言和下面媒体沟通会上交流的观点,介绍了诺亚方舟实验室在计算机视觉领域的主要研究方向和相关研究成果,以及田琦教授对人工智能产业发展的看法,为华为诺亚方舟实验室正在进行的工作带来多角度解读。
诺亚方舟实验室六个cv的研究方向及相关挑战
目前,华为拥有超过18万名员工,在全球170多个国家开展业务。2018年收入达1085亿美元,成功跻身世界500强第72位。在华为快速增长的企业财富和超强的业务布局能力背后,最关键的力量是华为遍布全球的14个RD中心。
华为诺亚方舟实验室作为华为的AI研究中心,是这14个研究中心中不可或缺的一员,也承载着华为打造全球顶尖人工智能实验室,帮助公司乃至整个行业实现AI战略转型的宏大使命。
以田琦教授为代表的AI RD人员主要集中在诺亚方舟实验室的计算机视觉研究。据田琦教授介绍,诺亚方舟实验室在计算机视觉领域的研究主要分为六个方向,分别是:底层视觉、3D视觉、语义理解、数据生成、视觉计算、视觉与多模态的融合。
第一个研究方向是底层视觉,这部分的研究课题主要致力于改善拍照体验。目前,低分辨率和噪点是影响拍照体验的重要因素。虽然对拍摄的照片进行过评分和去噪可以有效改善用户体验,但也存在一些不足,如噪声的统计特性难以估计,原始图像和噪声经过多次处理后难以恢复,降质模糊图像难以恢复等。
第二个研究方向是语义理解。视频内容通常包含丰富的语义信息,如扔东西、偷窃等个体行为,聚会、打架等群体事件。因此,语义理解技术的发展可以为平安城市、终端视觉等业务带来巨大的商业价值。然而,目前相关技术的发展面临一些挑战。一方面,在类似事件中很难识别不同的行为;另一方面,不同场景下的相似行为可能代表语义不一致。
第三个研究方向是3D视觉。与二维数据相比,三维数据包含了更多的信息,因此也被认为是计算机视觉的未来。然而,3D视觉的发展也面临着诸多挑战,以医学图像为例:医学图像数据标注需要极其专业的知识,在大数据时代,获取标注准确的医学数据难度大、成本高;此外,在医学图像中很难区分正常样本和异常样本,例如,需要识别一些器官疾病的细微之处。另外,视频数据中存在大量的冗余信息,如何从这些海量的冗余信息中挖掘出有用的信息也是一个巨大的挑战。
第四个研究方向是数据生成。丰富的数据是算法研究的保障和基石,但在实际场景中,版权、隐私等限制会导致数据获取困难、人工标注成本高等问题。如何以低成本的方式获取实用数据成为行业发展的重中之重。现有数据生成技术生成的数据大多存在图像质量差、同质化严重等问题。
第五个研究方向是视觉计算。视觉计算是深度学习应用中非常重要的一部分。现在业界有两个研究方向:一是现有网络模型的压缩加速,二是新网络结构的自动搜索。目前边缘计算的算法相对独立,行业缺乏统一平台,调用极其困难。而且行业内缺乏一些针对特定视觉任务的网络压缩加速算法,导致该课题的研究方向面临很大挑战。另外,目前人工构建神经网络的策略费时费力。网络结构搜索虽然可以在一定程度上解决这个问题,但是在算法和效率上还是有很大的进步空。
第六个研究方向是视觉和多模态。现实世界中的数据有不同的模态形式,如语音、文本、图片、视频、雷达激光等。计算机世界中不同模态数据的相互转换已经成为一门专业学科。目前多模态信息融合的方案往往面临数据异构的问题,即不同模态的信息难以统一表达;另外,评价多模态数据间转换性能的标准是主观的,所以无法客观评价。这些方向正是行业需要加大RD力度的地方。
五大CV技术创新,田琦团队的行业“药方”
围绕计算机视觉研究的六大方向,面对行业提出的挑战和新问题,田琦教授及其团队成员积极攻克难关,通过新的算法和求解模式给出了新的行业药方——诺亚方舟实验室在神经网络结构搜索、目标检测、行人再识别、网络压缩、三维物体检测等方面给出了技术解决方案。,做出了超越行业的突破性创新。
在神经网络结构搜索方面,现有的搜索网络和测试网络有很深的区别。例如,在CMU和DeepMind共同提出的飞镖方法中,搜索网络只有8个单元,但测试网络有20个单元。然而,在浅层搜索网络中发现的结构不一定适合于深层测试网络。如果直接加大搜索网络的深度,就会导致视频内存爆炸的问题。对此,华为提出了新的网络搜索方案。据悉,目前华为方案搜索到的网络结构在CIFAR10测试中错误率为2.55%,迁移到ImageNet时在移动设置中Top-1错误率为24.5%。同时,这种新方法大大降低了搜索开销:与ICLR 2019公布的工作飞镖相比,新方法只需要0.3GPU天的搜索时间,却能获得更好的性能。
目标检测作为计算机视觉的一项非常基础的技术,对大量的应用有着广泛的影响。目前,目标检测框架主要分为单阶段法和两阶段法,前者速度更快,后者更准确。目前最好的单阶段检测方法是基于关键点的检测,通过角点的组合来确定目标帧。但是这种方法很难感知物体内部的信息,导致网络产生很多错误的目标帧。为此华为提出了借助物体中心点检测物体目标框的方法,并引入中心关键点对检测到的目标框进行筛选。如果待确定的目标框的中心区域包括对象的中心点,则该目标框是可能正确的目标框,否则,该目标框将被移除。实验结果表明,在目前最具挑战性的MS-COCO数据集上,该方法优于所有已知的单阶段检测方法,至少领先4.9%,几乎达到目前最好的两阶段检测方法的准确率。目前这种方法是开源的,引起了业内同行的高度关注。
行人识别技术广泛应用于平安城市、智慧公园等领域。目前,行人再识别数据的标注方法存在标注困难、成本高等问题。为此,华为提出了全新的行人再识别解决方案,大幅降低标注成本,让行人再识别模型在新场景中快速部署。从实验结果来看,弱监管场景下,华为行人再识别技术的准确率有了显著提升。
网络压缩对于端侧设备的应用有很大的价值。目前业界压缩的加速比可以达到几倍而不损失精度。但是由于隐私、法律、传输等原因,用于压缩训练的数据往往是不可用的,这就进一步增加了这个问题的难度。在没有原始训练数据的情况下,华为利用生成的网络提供训练数据,设计损失函数得到与真实图片近似分布相同的数据进行训练,并对网络进行压缩。根据得到的结果,LeNet-5架构在MNIST上的压缩精度可以保持在98.2%,比之前最好的算法提高了6%,接近使用真实数据的压缩算法。
对于可广泛应用于无人驾驶的3D物体检测,远处物体在2D图像上的微小位移将导致3D 空的巨大偏差,但现有算法难以实现非常高的3D覆盖率。华为提出用强化学习的方法进行轴向修正。从实验结果来看,在KITTI鸟瞰评测和3D物体检测数据集上,华为提出的方法与目前最好的算法Mono3D和Deep3DBox相比,性能提升了6%左右。
深度学习还在进步,算法和计算能力是互补的。
在演讲结束后的媒体交流中,田琦教授介绍了相关技术以及研究在具体场景中的应用,并对计算能力和算法发表了自己的看法。
基于华为的瑞星芯片、华为的数据生态等资源,田琦教授带领诺亚方舟实验室在计算机视觉的多个领域进行研究,最终将一系列研究成果应用于包括移动终端、智慧医疗、平安城市、安防、数字娱乐等实际场景。田琦表示:“我们主要致力于通过我们的创新研究,让机器拥有感知和理解周围世界的能力,最终实现我们的商业价值。”
最近,深度学习技术发展缓慢或达到一定瓶颈的说法成为各界人士讨论的话题。在田琦教授看来,前两年的深度学习其实离不开之前的长期积累。只是爆发的时候大家都关注了。目前深度学习还在发展进步中。
由于计算能力的提升,人工智能技术的发展也有了长足的进步。目前业内有一个关于AI应该以计算能力为主还是以计算能力为主的讨论。田琦教授阐述了自己对这个问题的看法。他自己说:“在终端的应用中,计算能力的提升为大量的算法和数据运算提供了便利,让更多的算法变得有用;同时,超大规模算法的训练和求解依赖于计算能力的发展。但是,没有更好的算法,计算能力的价值是无法体现的。计算如电,算法如发明的灯泡。所以简单的说算力至上或者算法至上是不对的,算法和算力的关系其实是一种交替融合互补的状态。仅从学术界和产业界来看,目前大学更注重算法的研究,而企业界因为拥有大量的计算能力,相对更倾向于依赖计算能力。”