出品|搜狐科技
作者|宋万新
编辑|金扬
5月17日,2021搜狐科技5GAI峰会在北京举行。搜狗CEO作为嘉宾,联合搜狐新闻发布搜狐新闻24小时数字人,并发表主题演讲,分享数字人背后的新技术。随后,他接受了搜狐科技的专访,对数字人技术的亮点和搜狗人工智能的最新研发成果进行了详细的解答。
谈及推出“数字人”的初衷,王小川指出,来源是搜狗的基因涵盖了搜索,表达了获取知识和与人对话的能力。输入法强调的是交流,输入法和搜索背后原来的核心是强调语言。
与之前发布的AI合成主播雅尼相比,王小川表示,最大的变化是从2D到3D。“雅尼是一个2D形象,当她移动时,她只面对摄像机的移动。3D后,她有不同的视角来拍摄你的人形。你可以旋转座位,看看手势的表达范围更广。”
王小川透露,主播成熟提升后还有很多工作要做,包括不断提升自己的流畅度,更高的领悟能力,落地更多场景。
以下是采访记录的汇编:
搜狐:川先生您好,刚刚发布了数字人技术。背后有哪些亮点?
王小川:首先,数字人类技术不仅在中国足够领先,在世界上也是如此。我们七代的产品发布已经领先行业,引领大家的关注和后续的模仿学习。所以从最早的表情到全方位的坐起来、站起来、有手势、多模态交互的能力,大量使用了人工智能的技术,也是落地人工智能产品中比较亮眼的一个。
搜狐:这项技术在实现上有什么困难吗,或者可以分享一些研发历程吗?
王小川:这非常有趣。最早的时候,我们也在做语音识别。中国的技术非常好,所以我们展示了搜狗的技术实力。在交互中,不仅仅是基于文字和声音,我们还开发了唇语识别,通过唇语动作识别你说了什么,积累了很多经验。
另一方面,我们开始构建唇形合成,通过你的声音把它变成表情和唇动,从语音合成走向视觉合成。我们率先采用的这种起源是从语音到唇语再到合成。所以,大概从2018年开始,我们先和新华社有了第一次合作。就这件事的难度而言,随着从2D到3D的意义,包括肢体到表情,变得越来越难。
搜狐科技:更新版的《数字人》和之前发布的《雅尼》有区别吗?取得了哪些进步?
王小川:从2D到3D是一个很大的变化。雅尼是一个2D形象,当她移动时,她只面对摄像机的移动。3D后她有不同的视角给你的人形拍照。可以旋转座椅看手势表情范围更广。今天纪大成发布的所谓主播,你改变了这样一个声音的能力,包括翻译技术和更严格的表情管理,从翻译的文字的表示变成了数字手势的表示,这是很多不同技术的融合。
搜狐:搜狗下一步会探索新技术吗?是如何规划的?
王小川:我们认为在下一个阶段,主播本身的成熟和提升背后还有很多工作要做,包括不断提升其流畅度,让大家获得更高的理解能力。行业是60,我们是85。同时可以应用在更多的场景中。手语需要规范。除了官方手语,还有方言手语。全世界都有一个全球手语系统。如何实现或标准化为标准的通用语言?我们认为它有更多的社会意义。
搜狐:除了数字人,就整个人工智能领域而言,搜狗有什么新的成果可以分享吗?
王小川:我们需要结合各种能力。之前提到的营养师问了很多和健康有关的问题,尤其是饮食不同,孕妇能不能吃西瓜等等。我们需要把这些知识和用户的需求连接起来,同时通过数字人这个载体给用户带来更好的互动。
我们提出了两个核心概念,自然交互、知识计算和知识计算,可以最大限度的提高用户的满意度。