2020年8月7-9日,2020全球人工智能与机器人峰会在深圳正式召开。CCF-GAIR 2020峰会由中国计算机联合会主办,香港中文大学和Leifeng.com联合承办,鹏程实验室和深圳市人工智能与机器人研究所协办。
从2016年的产学结合,2017年的产业落地,2018年的垂直细分,到2019年的人工智能40周年,峰会一直致力于打造中国人工智能与机器人领域规模最大、规格最高、最跨界的学术、产业和投资平台。

8月8日,由深圳人工智能学会、CCF语音对话与听力专业组协办的“前沿语音技术”专场拉开帷幕。
专场由北京大学教授主持,深圳市人工智能学会副理事长邹月贤教授,五位语音领域的专家学者坐席,涵盖“空声场控制、语音分离、声纹识别、语音转换、端到端语音识别”五个专业领域,共同探讨前沿语音技术的发展。
可以说这是一场干货满满,学术氛围浓厚的专场。
西北工业大学智能声学与通信研究中心教授张文:open 空中的声场主动控制技术
第一位演讲的嘉宾是西北工业大学智能声学与邻里交流研究中心教授张文。演讲的题目是“开放式空房间声场主动控制技术”。
张文博士毕业于澳大利亚国立大学,现任西北工业大学航海学院教授、博士生导师。他曾在澳大利亚联邦科学与工业研究组织、澳大利亚国立大学工程与计算机科学学院工作,并先后在IEEE Signal Processing Magazine、IEEE/ACM Transactions on Audio等国际权威期刊和会议上发表论文60多篇,如Speech and Language Processing、Journal of the Acoustic Society of America等。2015年获得澳大利亚研究委员会“早期职业研究员奖”,2017年入选中国国家人才计划青年计划。
目前,张文教授的研究方向主要有语音和声音信号处理、主动噪声控制和机器人语音交互。
在讲座中,张文教授主要从空房间声场重建技术、空房间多区域声场控制技术和空房间噪声场主动控制技术三个部分阐述了开放式空房间的主动控制技术。
在空之间的声场重建方面,主要涉及到两个技术:一个是波场的WFS,一个是Ambisonics。张文教授指出,近年来,Ambisonics面向场景的编解码技术较为流行,该技术以声辐射模式为基函数对声场进行建模,通过对波域转换后的Amibisonic信号进行处理,实现声场重建和控制。
至于空之间的多区域声场控制技术,张文教授提出了空之间的多区域声场控制系统,利用一个扬声器阵列同时控制多个区域的声场。典型应用包括在各种公共环境中产生单独的声音区域,以及在嘈杂环境中产生安静的区域。
除了提出技术本身的应用场景,张文教授还提出了评估技术可实现性的理论。可实现性系数是基于声音区域的位置和明亮区域中的预期重建声场的信号而获得的。越接近1,可实现性越高,越接近0,可实现性越低。
至于空中主动噪声场的控制技术,张文教授介绍,区域主动噪声控制是通过麦克风阵列、扬声器阵列、声场控制技术相结合,实现三维空区域的降噪效果。
演讲最后,张文教授从两个方面提到了最新的工作考虑——新型麦克风设计和AI与分布式声学相结合的信号处理。张文教授表示,在信号处理中,要注意语音信号和噪声信号的宽带随机特性,尤其是对中高频信号和快变信号的跟踪能力。在这些情况下,声场控制的难度急剧增加,会有大量的工作要做。
滴滴实验室高级专家研究员宋会:基于深度学习的语音分离技术进展
第二位嘉宾是滴滴AI实验室高级专家研究员宋会,他的分享主题是“基于深度学习的语音分离技术进展”。
宋会博士毕业于清华大学,在语音技术行业工作了10多年。先后在滴滴AI Labs语音技术部、语音研究室工作,有丰富的语音算法研发、产品化、商业化经验。
在本次演讲中,宋会博士介绍了语音分离技术的发展现状,并阐述了基于深度学习的单通道语音分离技术的发展,各种技术方案的优缺点,适用场景,以及未来面临的挑战。
宋会博士首先在两个不同的公共数据集上演示了当前流行的单通道语音分离技术的性能,其中WSJ0-2mix是纯测试集,WHAM是相应的有噪测试集。
在理想纯数据集上,单通道分离技术近两年在SI-SDRi指数上取得了很大的进步。但是对于更接近真实环境的嘈杂场景,目前学术界的研究还不是特别完整。与安静环境相比,SI-SDR指标会下降几个dB,性能更好的单通道方法也没有在有噪数据集上通过完整的测试和评估。
宋会博士指出,单通道语音分离可以抽象为“编码器-分离器-解码器”的基本框架。编码器用于将一维混合语音变换到另一个二维空空间,分离器用于学习这个二维空空间中相对于每个说话人的掩码,并在元素级与混合语音相乘,得到每个分离的变换域信号。
目前主流的分离方法有时域和频域两种。频域法的优点是可以和传统的信号处理方法更加融合,可以获得更加稀疏和结构化的声学特征。但是,它的缺点也是显而易见的,如精确的相位重构困难,需要长的窗口长度来满足频率分辨率的要求而导致的长时间延迟等。
宋会博士在演讲中主要从u-PIT、Deep CASA、语音滤波器、SBF-MTSAL-Concat四种方法阐述了频域语音分离和目标说话人提取的技术路线。
近年来,基于时域的语音分离技术越来越受到关注,宋会博士也分析了时域的语音分离技术——
与频域方法相对应,时域方法可以将混合语音变换到实数域空,以数据驱动的形式学习其特征表达。例如,可以使用1-D CNN或更深的编码器来完成这种转换。时域分离法不需要处理相位重构问题,其延迟相对较短,可以达到采样点级别的延迟。非常适合那些实时性要求高的场景。
在具体方法上,宋会博士主要介绍了Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+等几种有代表性的方法。
随后,宋会博士介绍了单通道语音分离技术的几个研究方向,包括分离器的改进、编/解码器的改进和优化、训练机制的改进、有效利用说话人嵌入信息的情况下高质量的说话人提取。
最后,宋会博士总结说,目前,基于时间域的分离方法在学术界和工业界更受欢迎。展望未来,宋会博士表示希望神经网络的泛化能力能够不断提高,使各种分离网络在真实环境中取得令人满意的结果;希望未来可以挖掘出更多语音分离的场景和应用。
昆山杜克大学电子与计算机工程副教授李明:基于深度编码的声纹识别及其相关任务。
接下来是昆山杜克大学电子与计算机工程副教授李明,他的演讲题目是“基于深度编码的声纹识别及其相关任务”。

李明博士,副教授,毕业于美国南加州大学。他目前是昆山杜克大学电子和计算机工程副教授,武汉大学计算机学院兼职教授和博士生导师。他的研究兴趣包括音频和语音信息处理、多模态行为信号分析等。发表学术论文100余篇,现为IEEE语音与语言技术委员会委员、中国计算机联合会语音对话与听力专业组专委会委员、中国人工智能学会人工心理与人工情感专委会委员、APSIPA语音与语言处理技术委员会委员、IEEE协会高级委员。
李明副教授曾在Interspeecp016、2018、2020担任说话人语言识别主席。团队在2011年、2012年、2019年分别获得InterSpeech Para语言挑战赛一等奖、ASRU19阿拉伯语识别一等奖、interspeecp0无畏脚步说话人识别一等奖,并指导学生获得ISCSLP2014年度最佳学生论文奖、IEEE CPTECE2018年度最佳论文奖。2016年,他被授予IBM教员奖,2018年,他被授予ISCA 5年最佳期刊论文奖。
在演讲中,李明副教授首先从特征提取、模型建立、鲁棒处理、分类器设计等几个步骤介绍了传统的声纹方法,然后介绍了基于端到端深度学习框架的声纹识别网络设计。
李明副教授提到,基于深度编码的声纹识别在结构上类似于传统的参数化建模方法。比如卷积神经网络用于特征提取,编码层网络用于统计计算得到固定维数的特征向量,全连接网络用于后端分类。
在李明副教授看来,基于深度编码的声纹识别是传统技术的升级:一方面,基于深度编码的声纹识别更准确,效果更好;另一方面,声纹深度编码还可以用于说话人日志、多说话人合成、特定说话人变声、特定说话人语音分离等一系列相关任务。
接着,李明副教授分享了声纹深度编码在说话人日志中的应用,介绍了如何通过LSTM、向量转序列等方法更好地建模说话人片段的相似度矩阵,以及如何通过匈牙利算法和预处理降低PIT损失函数的复杂度。
李明副教授还介绍了一个具有声纹深度编码一致性约束的多说话人合成系统框架。在传统的TTS输出上,在输出端增加了声纹网络,使得合成网络输出语音的声纹编码与给定的目标说话人一致,提高了合成语音与目标说话人的相似度。
凌振华,中国科学技术大学电子工程与信息科学系副教授:基于表征解耦的非平行语料库说话人转换
第四位演讲的嘉宾是中国科学技术大学电子工程与信息科学系副教授凌振华。
凌振华副教授主要研究领域为语音信号处理和自然语言处理。主持和参与了国家自然科学基金、国家重点RD项目、安徽省语音学项目等多项科研项目。,已发表论文100余篇,被引用4000余次,获国家科技进步二等奖、IEEE信号处理学会最佳青年作者论文奖。在暴雪挑战赛国际语音合成技术评测、语音转换挑战赛国际语音转换技术评测等活动中多次获得测试指标第一名。
凌振华副教授现为电气电子工程师学会高级会员,中国计算机联合会语音听力与对话专业组成员,中国语言学会音韵学分会学术委员会委员,全国人机语音交流学术会议常务委员。2014年至2018年担任IEEE/ACM TASLP期刊副主编。
在本次前沿语音技术专场中,凌振华副教授演讲的题目是“基于表征解耦的非平行语料库的说话人转换”。
说话人到说话人切换,也称语音切换,是指在不改变文本内容的情况下,改变语音中说话人的身份信息。凌振华副教授在演讲中主要介绍了平行语料库中语音转换从语音转换所依据的语料库类型,进而扩展到非平行语料库中语音转换的技术演进过程。
其中,在平行语料库的条件下,传统的语音转换是基于GMM的。2013年后,深度学习技术被引入语音转换任务,基于生产性训练的深度神经网络等模型相继被提出。然而,GMM和DNN都面临着源目标语音框架对齐过程中的错误和不合理性。近年来提出的序列间语音转换方法可以有效地改善这一问题,增强转换后语音的自然度和相似度。
再者,凌振华副教授谈到了非平行语料库条件下的语音转换,并表示这种场景在实际应用中普遍存在,难度较大。基于非并行数据构造并行数据和分离语音中的文本和说话人表示是实现非并行语音转换的两种主要技术途径。
随后,凌振华副教授重点介绍了提出的基于特征解耦的序列到序列语音转换方法。该方法在序列到序列建模的框架下实现了语音中文本相关内容和说话人相关内容的分离,实现了比传统逐帧处理方法更好的非并行语音转换质量,接近使用相同规模并行数据的序列到序列语音转换的效果。
最后,凌振华副教授说:
在语音转换过程中,序列到序列的建模方法在时间调整、长时相关建模等方面有其优势。但是将这种方法从并行数据条件扩展到非并行数据条件是具有挑战性的。特征解耦是解决这一问题的有效途径。通过设计序列到序列框架中的模型结构和损失函数,可以获得相对独立的文本和说话人表示,进一步实现非并行数据条件下的高质量语音转换。
上海交通大学计算机系教授余凯:端到端半监督语音识别技术进展
最后一位压轴嘉宾是上海交通大学计算机科学教授余凯。
余凯教授是上海交通大学苏州人工智能研究院的执行院长,思必驰的创始人和首席科学家。清华大学本硕,英国剑桥大学博士。长期从事语音技术的研究和产业化工作,发表论文170余篇。曾获ISCA计算机语音与语言及语音通信最佳期刊论文奖,InterSpeech、IEEE SLT、ISCSLP等国际会议优秀论文奖,语音识别评测、国际口语对话系统研究挑战赛等国家标准局研究评测冠军。
余凯教授是各领域旗舰会议的主席和项目委员会的主席。国家青年学者,国家自然科学基金尤青,IEEE资深会员,中国大陆大学IEEE语言与文字处理技术委员会第一任委员。现任IEEE语音与语言处理汇刊编委,中国人工智能产业发展联盟学术与知识产权组组长,中国计算机联合会语音对话与听力专业组副主任。荣获中国人工智能学会2014年度吴文俊科技进步奖、2016年度“科学中国年度人物”、2018年度中国计算机联合会竹奖。
在前沿语音专场,余凯教授的演讲题目是《端到端半监督语音识别技术的进展》。
在余凯教授看来,端到端的语音识别降低了识别系统的复杂性,减少了参数的数量,简化了训练管道。目前,端到端框架主要有两种类型——同步框架和异步框架;解决分类对齐问题。
余凯教授在演讲中主要讨论了异步端到端,其最大的特点是输出和输入没有统一的时钟,有两个不同的网络。编码器从整个输入序列中提取特征置信度,然后解码器以自回归方式输出标签序列,再通过注意机制处理输入输出对齐。
同时,余凯教授还指出,端到端识别系统有两个挑战:在线解码的延迟、文本资源和语言的约束空。
为了解决在线解码的延迟问题,需要基于异步端到端模型的在线解码。主要有三种方法——固定短时窗预测法、基于单帧触发的变长窗法和基于多帧累积触发阈值的方法。
文本资源和语言空约束的挑战可以通过模型融合、语言模型模块嵌入和半监督训练来解决。
除了端到端模型,余凯教授还提到了数据处理。从海量数据升级到高质量、精准的大数据,需要自我监督的预训练、半监督训练和生存数据训练。

此外,余凯教授还提到了如何在没有数据的情况下,无中生有地合成一些东西。余凯教授说:
无中生有的方法大多是通过引入生成模型来解决的,而判别方法对数据的依赖性很强,只有拥有足够的数据才能解决判别问题。
余凯教授在演讲中主要介绍了“丰富副语言信息生成”的两种方法:一种是在低资源数据下,使用VAE对说话人空进行建模,在合成数据时,对隐变量的先验分布进行采样,得到虚拟说话人的声音,用于ASR训练;第二,我们不使用句子级VAE,而是使用音素级VAE来增加合成音频的副语言信息的多样性。
随着最后一位嘉宾演讲结束,前沿演讲专场落下帷幕。
各位嘉宾的发言内容将在稍后公布,敬请关注。雷锋。com


