平安科技王健宗:所有前沿技术,都可以在联邦学习中大展身手!

核心提示受访者 | 王健宗,平安科技副总工程师、联邦学习技术部总经理记者 | 夕颜「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的

采访对象|王建宗,平安科技副总工程师,联邦学习技术部总经理。

记者|彦希

《AI技术生态论》人物访谈栏目是CSDN发起的百万人AI行动的重要组成部分。通过对AI生态顶级大咖、创业者、kol的采访,反映他们对行业的思考、对未来趋势的判断、技术实践和成长经历。

本文是“AI技术生态”系列第27期访谈。CSDN邀请平安科技副总工程师、联邦学习技术部总经理王建宗为大家详细讲解了关于联邦学习我们必须知道的事实。

百万人学AI,你也是!从今天起,点击阅读原文报名“2020 AI开发者大会”,使用优惠券代码“AIP211”即可免费获得价值299元的大会在线直播门票。限量100个,先到先得。

今天,我们来谈谈联邦学习。人工智能和大数据领域的人对这个新词汇并不陌生,但很多人对这个甚至有多个名字的技术是如何实现的,只略知一二。

什么是蓬勃发展的联邦研究?

简单来说,作为一种分布式机器学习范式,联邦学习的最大特点是允许多个参与者在AI上协作。本质上,联邦学习的目标是有效解决“数据孤岛”问题,让参与者在不共享数据的基础上联合建模,从技术上打破数据孤岛,实现AI协同。

自2016年Google提出面向移动终端的联邦学习(federal learning)以来,这一概念开始流行,并被视为下一代人工智能协同算法和协同网络的基础。平安科技提出了“联邦智能”的架构,包括安全通信、分级加密、可信计算、可视化等真正保护用户隐私数据的完整系统。联邦学习只是技术环节之一。

虽然联邦学习技术的更新和迭代有很多实用的解决方案,但是在保护数据隐私的前提下,AI协作的实际实现仍然有大量的挑战需要克服,无论是底层技术还是整个部署过程。

为了更深入地了解联邦学习,CSDN邀请了平安科技副总工程师、联邦学习技术部总经理王建宗,从他走上联邦学习技术和应用研究道路的亲身经历,到他领导搭建的自动化机器学习平台“ockham”和联邦智能平台“蜂巢”的技术分析和应用实践,来看看这项技术在信息爆炸的新时代走到了哪一步。

从云AI到联邦学习,我们预测技术的发展趋势。

华中科技大学计算机科学与技术学院计算机系统结构专业的王建宗,是一个典型的拿着公费奖学金的“别人家的孩子”。2009年,王建宗被州政府派往美国莱斯大学联合培养博士。当时云计算正在兴起。参与了莱斯大学与亚马逊的云计算服务优化合作项目,并在读博期间提出了“云AI”的技术方向,完成了云服务质量方向的博士论文。

联合博士培养结束后,王建宗收到了当时一些美国公司和学校的Offer。但考虑到国内广阔的应用场景和海量的数据,王建宗毅然回国,加入网易,从零开始参与建设网易大数据平台。经过几年的大数据研发,王建宗开始思考一个问题——这些数据如何与应用场景相结合?他很自然的想到了几年前美国提出的“云AI”方向。从技术路径上看,云计算、大数据之后,必然走向人工智能。怀着对人工智能未来的期待,王建宗再次前往美国,师从国际著名人工智能学者李晓林教授,从事人工智能博士后研究。

在云计算和人工智能领域深耕数年后,王建宗将主要精力投入到分布式人工智能领域,而联邦学习是他多年来一直在做、想做的事情。在美国完成博士后项目后,回国加入平安科技,专注于金融人工智能和联邦智能领域的研发。他带领团队开发了自动化机器学习平台“ockham”和联邦情报平台“Honeycomb”。

揭示联邦学习平台的“蜂巢”

AutoML是机器学习中一项至关重要且极具潜力的技术,尤其是当它与联邦学习相结合时,前景无限。然而,今天我们将关注联邦研究。

王建宗表示,联邦学习想要解决的问题很明确——数据孤岛,这也是其目前主要的落地场景。

“蜂巢”的技术架构

他介绍,蜂巢平台的技术框架原生支持联邦情报。在数据部落中,“蜂巢”包含几个功能模块,包括数据预处理、数据表征、数据质量评估等。该平台支持传统的统计机器学习和深度学习模型,如逻辑回归、线性回归、树模型、CNN/RNN等。在整个模型训练过程中,对梯度进行非对称加密,融合梯度和参数对模型进行优化和更新。

在联邦推理过程中,“蜂巢”对原始传输数据进行加密,最终实现推理结果。

在技术RD项目中,他们不仅需要开发有效的分布式机器学习算法,更重要的是如何更好地保护用户数据安全。在此基础上,他们需要开发可靠的加密方法和有效的联邦学习模式。因此,根据用户在实际应用场景中的反馈,比如一些联邦学习算法涉及到大量的矩阵大数运算,通过不断尝试和实验优化矩阵大数算子,秘密状态下的矩阵大数运算效率得到了很大的提高。

这不禁让人疑惑,平安科技内部的“蜂巢”背后是一个怎样的团队?

据来自王建宗的CSDN介绍,这支团队是业内专属的联邦式学习团队,由平安集团首席科学家肖京博士指导,由他亲自带队。其主要目标是促进AutoML、联邦学习、AI翻译和深度映射的生态发展,探索行业应用与前沿AI技术的深度自动融合之路。最近在很多AI比赛中排名第一的自动化机器学习平台ockham也是来自这个团队。

作为平安科技主要的联邦学习平台,蜂巢的底层技术和设计有什么独到之处?

王建宗介绍,如何构建和实现企业级联邦智能平台,是平安科技的目标。因此,“蜂巢”从最初的架构设计就考虑到平安集团各专业子公司之间存在诸多数据壁垒。金融行业对数据隐私保护和监管的要求非常严格,企业级联邦智能平台必须满足稳定性、安全性和合规性的要求。

为了说明这一点,王建宗举了一个例子。“国内金融机构常用的加密方式是国密算法。很多公司对任何信息的传输和加密都要求国密算法,这与我们在行业内常见的差分隐私和同态加密是不同的。蜂巢平台可以全面支持国密SM2、国密SM4、混淆电路、差分隐私、同态加密等不同加密方式,满足实际企业业务场景的不同需求。”

此外,蜂巢平台采用完全自主研发的渐变处理方式,可以真正适用于企业之间不同的应用场景。通过更高效、更健全、更稳定的更新机制,确保参与各方都能实现最高效的建模过程。

在联邦学习技术的RD迭代过程中,王建宗和他的团队总结了构建联邦学习平台的几个要点,在这里分享给大家,供大家参考:

1)如何根据不同的业务场景对联邦学习算法进行改造?

改造联邦学习算法的关键技术之一是将各方在本地计算的参数进行联邦,根据不同的业务场景选择不同的聚合方式:比如当数据样本量较大,性能要求较高时,平安科技提供了FedAvg方法,在保证性能的同时,可以很大程度上满足基本的业务需求;针对小样本的联邦学习,开发了FedSmart算子,可以更好地优化参数,提高模型效果。此外,还根据其他业务场景定制了一些聚合运算符。

2)如何灵活实现加密功能?

数据安全是联邦学习技术的核心。根据不同的性能要求,平安联邦学习平台提供了不同级别的加密模式:对于加密要求严格的业务方,提供了国密加密的加密模式。除此之外,它还支持通道加密模式,以适应更多的业务场景。

3)如何提高联邦建模的效率?

学习联邦技术时需要考虑耗时效率。多方计算和加密传输会增加整体耗时。针对这一问题,平安联邦智能平台设计了大量矩阵大数算子来实现各个计算模块,优化了加密算子和数据结构,并使用了团队自主研发的新型网络编码技术,可以更好地支持大批量数据的运算,在不影响模型效果的情况下尽可能提高建模效率。

蜂巢支持哪些算法和训练模型?

来源:视觉中国

“蜂巢”支持机器学习、深度学习等多种算法。结合平安自研底层硬件加速技术方案,竞品速度提升50%。具体到算法和AI模型训练,以及自研底层硬件技术解决方案,平安是怎么做的?

据王建宗介绍,首先,蜂巢联邦学习平台底层的算法设计分为四个不同的领域和方向。

第一部分是基本的联邦学习算法,包括常见的logistic回归、各种树模型和Boosting算法,以及深度学习网络如CNN、RNN等,支持TensorFlow、PyTorch等各种主流框架,完全兼容不同建模场景。这些都是蜂巢联邦学习平台的核心基础。

第二部分是运营商层的深度支持和设计。比如从底层设计支持图计算算子,使用基于聚集-应用-分散的高层算法支持库实现高效的信息收集、运算和全局更新处理,使得蜂巢平台的联邦图计算算法具有非常好的时效性性能。

第三部分是异构计算。目前,联邦学习算法的性能受到加密和通信的限制,其效率性能往往不够好。正因如此,蜂巢平台使用GPU等异构计算芯片来加速联邦学习的加密和通信过程,结合前面提到的算子层优化,达到了50%的加速效果,这也是蜂巢在深度实际应用场景中解决企业间联邦学习建模的痛点之一。

最后一部分是安全加密部分。比如在实际的建模和推理过程中,重要的模型参数、每个用户的本地数据等关键信息都存储在一个安全的容器中,每次访问都需要经过审计和加密,这样可以达到很好的隐私和安全保护效果。

联邦学习可以与机器学习算法相结合。有哪些新的可能性?

联邦学习和机器学习的结合是近年来的研究热点。对此,王建宗介绍,联合学习可以结合经典的机器学习算法应用于分类、预测等场景,在一些细分领域也有很好的应用场景。

比如在推荐系统中,可以结合协同过滤技术,基于矩阵分解技术进行多方联合推荐;在医疗健康领域,多方可以通过深度学习模型,如U-Net、ResNet等,对医学影像模型进行联合训练,提高模型的准确率;在机器翻译领域,多方在训练语料无法匹配局部性的前提下进行联合建模,以最大化翻译模型的准确性;在OCR领域,联合学习还可以充分利用他人的训练样本信息,弥补相同识别场景下的数据不足,提高字符识别的准确率。

此外,王建宗还提到,还可以积极探索联邦学习与AutoML、GNN等领域的技术结合和应用。蜂巢联邦学习平台支持联邦学习建模过程中多种参数自动调整方法,能够更高效地找到最佳模型参数,达到更好的效果。对于图神经网络技术,联邦学习还可以结合图结构数据的特点,增加对图卷积算子的支持和优化,从而实现更丰富的应用场景。

正如他所说,联邦智能之于联邦学习,就像人工智能之于深度学习一样。所有人工智能的前沿技术都能在联邦智能的研发中大显身手。从原始数据的传输来说,联邦学习降低了原始数据传输到中央服务器的通信成本,但由于大量的模型训练交互,增加了交互通信成本。加密是必不可少的环节,但加密本身往往会影响联邦学习的效率。在实际项目中,需要根据不同的应用场景,找到“高效率”和“可用性”的平衡点。

来源:视觉中国

同时,联邦学习也有很多物联网应用场景。“现在进入5G时代,我们可以积极思考5G能给联邦学习的沟通带来的便利,让联邦学习的能力赋能普惠AI。未来联邦学习和量子通信的结合也是一个很有前景的方向,相信能给联邦学习带来质的提升。基于网络编码的传统思想,我们可以在联邦学习的多方通信过程中引入中间节点,分别用于接收和转发线性或函数加密的参数信息。通过网络编码通信框架,使每个通道上传输的参数不可读,达到在接收端有效解码的效果”,王建宗说。

学习联邦底层技术是否成熟?

目前联邦学习的底层技术是否成熟?目前存在哪些不足?相信这些问题都是大家关心的地方,也是有望找到突破口的地方。

王建宗认为,目前联邦学习的底层技术已经比较成熟,目前的不足在于计算能力和带加密的通信。虽然英特尔SGX和ARM的TrustZone可以支持联邦学习的一些场景,但是联邦学习没有专用的芯片,联邦学习也没有统一的行业标准和相关协议。

产业落地的难度在哪里?

目前,平安科技的联邦智能平台定位于服务营销、获客、定价、风控、智慧城市、智慧医疗。“蜂巢”可以在商业层面提供智慧金融、智慧城市、智慧医疗的一站式解决方案,并开发了具有联邦智能能力的联邦机器人。以机器人为服务终端,采集数据,联合建模,完成金融领域的客户识别和定制服务。

众所周知,本质上,联邦学习的目标是在保证数据隐私和安全的前提下,解决“数据孤岛”问题,实现人工智能。然而,不得不提的是,这在实践中仍然是一个很大的挑战。举个很简单的例子。在联邦学习中,有一种常用的不共享数据的协同建模方法,就是梯度共享。遗憾的是,梯度共享法在有限的条件下是可以成功破解的。这些试图保护数据隐私的学习模式已经被攻破。它们将来会有效吗?如何保护此次事件暴露出的联邦学习的隐私和安全,让人心生疑窦,对未来的技术提出了更高的要求。

对此,王建宗解释说,以平安科技为例,他们在做联邦学习时,对隐私安全有不同程度的设置。只有依靠梯度共享才能解决联邦学习和科研的问题。在实际项目中,平安科技为保障梯度共享机制下的联邦学习建模做了大量工作。比如在传输和计算中使用同态加密梯度,既保证了底层数据的安全性和隐私性,又保护了梯度信息。

虽然有应对的方法,但涉及到数据隐私,类似问题的存在也不能掉以轻心。

未来趋势

王建宗对联邦学习的未来发展还有哪些看法和思考?

他认为,联邦学习的关注度非常高,说明市场对联邦学习的需求非常旺盛。在金融领域、智慧城市、智能家居、车联网等拓展领域,都可以看到一些公司在布局联邦智能。他希望每个人在训练、推理、数据部落的构建和使用上,都能有联邦智能的理念和意识。

平安科技未来的发展方向是构建完整的联邦智能生态。在联合建模的基础上,提高算法选择的多样性,让用户自定义联邦学习的语言和参数指标,利用平台匹配算子构建自己的定制模型。希望未来不仅能全面布局联邦学习的应用,还能进一步发展联邦学习的可扩展性。

另一方面,制定统一的联邦学习标准也是推动这项技术发展的重要环节。虽然目前还没有统一的标准,但相关工作已经在进行中,包括平安科技联合多家企事业单位编写发布《联邦学习白皮书v2.0》,这是不小的进步。

“因为这是一个重要的新技术方向,平安会一直努力在这个方向占据领先地位,努力做行业标杆。因为平安天然有丰富的业务场景,我们对标准化的贡献不仅仅是理论和工程上的,还有我们长期对业务场景和AI应用的理解和经验。希望大家共同努力,打造联邦学习的生态,让各行各业都能充分发挥价值,让更多垂直行业落地。”王建宗对联邦学习的未来充满信心。

 
友情链接
鄂ICP备19019357号-22