科大讯飞、华为和字节跳动都在做语音翻译。有哪些技术上的进步?专用端到端语音翻译技术离产业化应用还有多远?腾讯AI Lab研发的交互式机器翻译系统有哪些新的技术探索?小牛翻译团队针对移动智能设备的机器翻译软件解决方案有哪些独到之处?各类智能翻译终端的“等距机器翻译”是什么?

7月15日,由小牛翻译主办,东北大学自然语言处理实验室、沈阳国际软件园协办的第二届小牛翻译论坛在网上成功举办。1949年7月15日,美国数学家沃伦·韦弗发表了《翻译备忘录》,提出了机器翻译的概念。为纪念这一理念,小牛翻译团队于2021年发起了小牛翻译论坛,每年举办一次,旨在汇聚国内机器翻译研究者、机器翻译技术开发者、机器翻译需求者等各领域代表,搭建机器翻译学术界与产业界的交流平台,促进机器翻译产学研的共同发展。本次论坛的主题为“机器翻译技术发展与产业应用”,涵盖“主题报告”和“圆桌讨论”两个部分。“话题报告”环节由小牛翻译总裁张春亮主持。论坛邀请了AI研究院副院长刘俊华博士、华为2012实验室文本机器翻译实验室主任博士、腾讯AI实验室高级研究员黄博士、机器翻译业务负责人博士、小牛翻译团队CTO博士分享了各自团队的技术研发和行业应用情况。

小牛翻译团队CTO杜泉博士首先分享了题为《面向移动智能设备的模型优化技术及应用实践》的精彩报告,主要分享了用于在移动智能设备上应用机器翻译系统的优化方法。在翻译速度优化方面,他指出用8位整数代替主流的32位浮点运算实现矩阵加速运算,可以在空之间带来4倍的节省;以Transformer模型为例,我们可以通过在相邻层之间共享注意力权重来减少注意力操作的次数,从而加速注意力机制。对于Transformer模型,解码器消耗的时间是编码器的5倍,所以他指出可以用深度编码器和浅层解码器的网络结构来优化编解码结构。他指出,可以用argmax代替softmax,这样可以让softmax的速度提高10%左右。在翻译质量优化方面,可以采用基于组内替换的知识提炼、随机子层跳转、权重提炼、层间动态线性组合的深度网络、基于常微分方程设计的高效网络方法来提高翻译质量。科大讯飞AI研究院副院长刘俊华博士以《同声传译关键技术的进展与展望》为题,对同声传译的关键技术进行了详细的介绍。结合讯飞在同声传译方面的研究和应用实践,给出了当前同声传译技术面临的挑战,并分析了其未来的发展趋势。他指出,语音同声翻译的主要实现路径包括级联同声翻译和端到端同声翻译,要解决的关键问题是如何决定何时翻译。为此,讯飞提出了基于文本约束的级联流式同声语音翻译框架、端到端离线语音翻译和端到端同声语音翻译框架。据刘俊华博士介绍,针对监督语音数据不足的现象,科大讯飞语音同传团队通过语音自监督学习、TTS数据合成等技术,生成了语音翻译的大规模并行数据,有效缓解了数据问题;同时,提出了交叉注意增强翻译框架。CAAT框架通过引入多目标约束实现了延迟和效果的有效平衡,在IWSLT2021语音同声传译任务中取得了良好的效果。在报告的最后,刘俊华博士介绍了同声传译的更多应用,也展示了目前同声传译的端到端应用实例。华为2012实验室文本机器翻译实验室主任杨浩博士分享了题为《移动互联网下等长翻译、同声传译等机器翻译新形式的研究与实践》的主题报告,介绍了针对不同移动设备的等长机器翻译的评测方法、模型框架以及研究与实践。他指出,目前机器翻译趋向于多设备、多屏、实时发展,但不同的设备或屏幕并不相同,人们希望在每台设备上获得良好的视听体验,因此学术界提出了等长机器翻译的任务。杨浩博士认为,在自回归模型中引入长度受限解码方法和长度敏感约束搜索,可以解决等长翻译中的长度控制问题。在使用两种长度控制方法生成满足长度要求的翻译后,可以进一步使用集成模型或翻译模型对翻译进行评分,然后通过重新排序选择最佳翻译。此外,通过限制句子长度,在获得固定翻译长度的情况下,可以使用非自回归模型来生成固定长度的翻译,从而获得更快的翻译速度。在报告的最后,杨浩博士展示了字幕翻译的实际场景,使用等距翻译可以显著提升用户体验。

腾讯AI Lab高级研究员黄博士分享了题为《交互式翻译中多任务模式的探索与落地》的精彩报告。首先,他介绍了交互翻译的具体任务——交互翻译模型需要根据人工对生成的翻译文本的修改,重新生成翻译文本,从而在人机不断交互的过程中,达到产生理想翻译结果的目的。因此,与传统翻译相比,交互式翻译可以通过翻译模型实现对输出译文的自动、及时和灵活的调整。随后黄博士介绍,其团队研发的交互翻译产品主要应用于严肃翻译场景,如大型机构的公文、决议等重要内容的翻译场景。这种严肃的翻译场景往往要求机器翻译具备四个特征:可定制的个性化翻译、可交付翻译的快速生产、累积数据的持续集成、计算资源成本最低。最后,黄博士介绍了其团队重点研发的多任务技术架构,将前述各种用户需求尽可能整合到单一模型中,例如,将个性化翻译、翻译输入法、翻译补全、翻译输入法的各种功能整合到单一模型中。这项技术仍在攻克中,在严肃翻译场景下有很好的应用前景。字节跳动机器翻译业务负责人王明选博士分享了题为《语音翻译中的语音表征学习》的主题报告,主要回顾了近两年语音翻译的相关工作,并分析了未来几年的重要挑战。该报告介绍了语音翻译端到端模式中的两个关键问题:语音数据的稀缺性和多模态表示的差异。他指出,端到端的语音翻译具有低错误传输和简洁的优点。但目前实施起来还是有一定难度的。主要原因是端到端的语音翻译面临着数据稀缺、多模态差异等问题。为了解决这个问题,王明选博士介绍了两种方法,即单词级流形混合方法和句子级对比学习方法。从视觉数据可以看出,两种方法都有效地缩小了语音表征和文本表征之间的距离,解决了原有的分裂问题。此外,王明选博士还介绍了两种方法相应的消融实验,证明了方法的有效性。在报告后的提问和讨论中,王明选博士也表示,虽然目前行业仍以级联模式为主,但端到端模式正处于发展初期,未来会有较大的增长空。主题演讲结束后,会议进入第二阶段小组讨论环节,由东北大学计算机学院人工智能系主任、自然语言处理实验室主任、小牛翻译CEO肖童博士主持。在此期间,嘉宾们就TO B还是TO C才是机器翻译的出路、如何利用错误驱动的方法提高机器翻译系统的性能、增量训练在目前机器翻译领域的效果如何等问题进行了充分的交流和讨论。