7月3日,“百度创造2019”AI开发者大会大脑论坛举行。在主论坛上,首席技术官王海峰正式发布了大脑5.0,实现了史上最跨越式的升级。在算法突破和计算架构升级的基础上,实现了AI算法、计算架构和应用场景的融合创新,成为软硬件一体化的大型AI生产平台。
首席技术官王海峰

“机械臂倒碗茶”“中英自由论”“洪湖”都拉近了AI技术与人的距离。这背后隐藏着哪些顶尖技术?大脑5.0为什么被称为软硬件的AI大生产平台?
升级后的大脑5.0打通了从基础层面的深度学习技术到通用AI能力、应用技术解决方案,再到定制模型,以及最终的部署和集成的所有流程,实现了人工智能产业化应用的全流程,实现了AI技术的标准化、自动化和模块化。
这次大脑技术展示的是语音识别、语音合成、远场语音交互芯片中的成绩单。语音技术部高级总监高亮介绍,在识别方面,提出了流式多级截断注意力模型SMLTA。这是全球首次局部注意力建模超越整句,也是全球首次大规模使用网络语音。SMLTA不仅大大提高了识别速度,还提高了识别准确率。输入法有效积相对准确率提升15%,音箱有效积相对准确率提升20%。合成方面,针对风格传递、音色模拟、情感拟人三大挑战,引入了语音合成技术Meitron,可以将语音的音色、风格、情感等元素映射到不同的子[/k0/]房间。使用时可以任意组合不同的元素,灵活控制合成语音的风格。同时降低语言合成的门槛,只需要20句话就能做出一个人的专属声音。
落地应用需求巨大,脑语音团队研发了一款用于远场语音交互的芯片——红蜻蜓芯片。洪湖芯片的设计改变了传统的芯片设计方法,遵循了“软件定义芯片”的全新设计思想。芯片采用双核HiFi4架构,2.8M内存,TSMC 40nm工艺。在这个硬件规格上,平均100mw左右的工作功耗就可以支持远场语音交互核心的阵列信号处理和语音唤醒能力。同时,根据车辆标准,洪湖芯片可以满足极其严格的要求,这将为车载语音交互、智能家居等场景带来更多想象空间。同时实现洪湖芯片的量产。
视觉科技在视频理解、活体人脸、车辆里德等领域获得第一名。在不久前结束的CVPR。上半年还在NTRIE2019、ICME2019、ICDAR2019、DWAN2019等比赛中获得多项冠军。视觉技术部、增强现实技术部总监吴介绍,5G时代,越来越多的物理设备将以高可靠、低延迟的方式接入网络空,这将彻底改变人们与环境和设备的交互方式。新发布的视觉语义平台2.0,正在推动视觉技术从“看得见、看得懂”到“互动”的升级。语义平台2.0在交互升级和软硬件结合两个方面实现了突破。

此次升级包括一体化人机交互系统和大场景物理世界交互系统。简单来说,一体化人机交互系统就是人、机器和虚拟环境的自然交互和融合。该系统适用于AR特效、小视频、特效小程序等场景的直播,已应用于多个视频app。大场景物理世界交互系统是视觉定位与AR技术的突破性结合,实现了大范围虚拟信息与物理世界的精准叠加,从而建立了AI时代全新的交互系统。目前软硬件结合,可以满足应用场景下更高效的视觉计算,更低延迟体验的要求,同时保护数据隐私。可视化软硬件结合主要集中在三个部分:模型压缩平台PaddleSlim、多模态FaceID开发组件和软硬件一体化解决方案AI camera。FaceID覆盖超过1200万台设备。
语义平台2.0更新了很多先进的感知技术,在机器人技术上有了新的突破。三维视觉首席科学家杨瑞刚介绍,机器人是一个智能体。除了感知技术,智能体还需要决策和行动相关技术来实现从环境感知到主动感知。目前对智能体技术的研究主要集中在三个方面:自动驾驶阿波罗、工程机械和服务机器人。主论坛中引人关注的机械臂“茶博士”,不仅能口若悬河,还能在长嘴壶中完成传统的倒茶工作,而且是其背后的服务机器人方案。基于三维视觉,机器人可以检测和跟踪茶杯的位置。通过机器人运动规划和控制,机械臂可以检测工作空之间的碰撞,并避开障碍物。实时运动规划后,可以自动生成倒茶轨迹;然后感应水流的变化,实时调整倒茶位置。语义联动技术分析,也是为了让机器人像“人”一般,听得懂,说得好,做得准。
在语言和知识技术方面,AI技术平台体系执行总监吴天介绍,已经设计并实现了——ERNIE,一个面向知识增强的语义理解框架,具有可持续学习的能力,核心模型能力不断提升。目前,厄尼已经积累了超10亿的知识,全面刷新了中文NLP任务的各项指标,并在多个产品应用中提升了效果。还有机器同传的最新进展。在翻译过程中对语音识别结果进行校正的联合词向量编码技术,可以解决多轮翻译中的一致性和连贯性问题,等等。结合先进的语音技术,大脑实现了高准确率、低延迟的机器同传技术。
此外,吴添还正式发布了行业知识图谱平台和智能创造平台2.0。行业知识地图平台旨在满足各行各业构建和应用知识地图的需求,帮助推动智能化。行业知识图谱平台基于领先的知识图谱核心技术,提供智能高效的知识生产流程、低成本的启动和跨行业迁移能力,帮助行业开发者定制行业知识图谱并加以应用。全新的智能创作平台整合了实时热点追踪和丰富的相关素材,已经具备全面的创作辅助能力,可以轻松解决传统内容创作面临的问题。

大脑5.0不仅包含算法层面的创新,在计算能力上也有突破。近年来,算法对计算能力的需求增长了近30万倍,而芯片的计算性能只增长了30倍。他们之间有着巨大的差距。
侯振宇副总裁为现场观众分享了新一代AI计算架构。面对AI计算的挑战,需要能够提供端到端的AI计算能力,这就要求计算系统从旧的追求海量数据处理能力和IO峰值转变为满足AI训练功能IO密集、计算密集、通信密集和AI推理功能大吞吐量、低延迟的要求。
侯振宇认为,面对即将到来的AI+5G时代,计算将无处不在。真正的计算将发生在设备、边缘和云端,因此D-E-C场景将是下一个需要重点关注的问题;同时,包括芯片、系统、设备之间的互联,将有助于不同场景下的计算连接在一起,产生更大的计算能力。
底层芯片和上层应用之间,需要操作系统。王海峰认为,深度学习框架是智能时代的操作系统。自主研发的深度学习平台“飞桨”,是中国自己的“AI操作系统”。在主论坛上,正式宣布飞桨与华为麒麟芯片深度对接,全球领先的端侧AI芯片和深度学习平台将共同为端侧AI提供最强的计算能力,创造最佳的深度学习运行效率。
为了降低建模成本,提高建模效率,减少对大数据的依赖,减少人为干预,开发了AutoDL自动建模技术。论坛上,大数据实验室主任欢君正式发布了AutoDL 3.0,从设计、迁移、适配三个方面进行了全面升级,并分享了多个实际案例。目前已经通过飞桨正式开源。


