“小爱,小爱,明天北京天气怎么样?”目前,AI对话系统已经深度融入人们日常生活的方方面面,技术架构和路线百花齐放。
然而,作为一项前沿技术,AI对话系统的标准缺失导致评价体系不一,应用水平参差不齐。针对这种情况,清华大学智能技术与系统实验室副主任黄敏烈教授联合学术界和行业研究机构,制定了全球首个《AI对话系统分类定义》,并于近日正式发布。分级定义旨在更好地评价AI对话系统的能力水平,推动AI对话系统在虚拟个人助理、智能家居、智能汽车、情感护送、精神健康等领域的应用。

源于图灵测试的AI对话系统是人工智能领域最重要的研究方向之一。“如果说自然语言处理是人工智能的‘皇冠上的明珠’,那么AI对话系统就是自然语言处理中最难、最核心的任务之一,是‘最璀璨的明珠’。”黄敏烈说。

黄敏烈表示,近年来,随着深度学习技术的不断发展,AI对话系统已经从基于规则的第一代、以传统机器学习为核心的第二代发展到以大数据、大模型为特征的第三代。对话能力发生了革命性的变化,在开放话题上展现出惊人的对话能力,对进一步推动人工智能产业发展具有重要意义和价值。
“考虑到AI对话系统任务多、评测维度多样、技术路线丰富,编写团队在制定分层定义时只关注完全由机器主导的对话系统,人机混合对话系统没有考虑。”黄敏烈说。
黄敏烈介绍,同时,为了充分发挥其在实际应用中的价值,从用户感知、观察、测量、度量的角度制定分级定义,不考虑系统的具体技术实现,不区分辅助任务、闲聊、知识对话等。,都表现为“场景”。
在上述原则下,分级定义从自动对话能力、对话质量、单/多场景、跨场景上下文依赖和自然切换能力、拟人程度、主动持续学习能力、多模态感知和表达能力等角度,将AI对话系统分为L0-L5六个等级。等级越高,AI对话系统水平越高。
“从以上标准来看,目前的AI对话系统级别已经发展到最高级别的L2和L3之间,常见的‘小爱同学’等AI智能助手就是这个级别。”黄敏烈说。
与国外相比,国内的AI对话系统水平如何?对此,小米技术委员会主席、AI实验室主任王斌表示,从目前的行业应用来看,中国的AI对话系统和国外的AI对话系统没有明显的区别,大体处于同一水平。
“现在AI对话系统整体在向L3、L4的路上,离理想还有一定距离,还需要一到两年甚至更长时间的持续努力。”黄敏烈表示,要走向L4、L5,需要破解记忆、联想、推理、自我学习能力等诸多关键技术。,并进行高表现力的语音合成。如果应用到元宇宙,做动作和表情的细粒度表达也是很有挑战性的。
在华为诺亚方舟实验室语音语义首席科学家刘群看来,AI对话系统的最高层次应用是复杂的情感任务。分层定义的发布将推动AI对话系统在情感任务中体现更高层次的智能,从而推动人工智能未来在情感陪伴、心理健康、虚拟人和元宇宙等领域的应用,大大降低人力物力成本,推动前沿技术进入大众日常生活。


