登临科技王平:创新自研双核驱动,赋能生根|量子位·视点

核心提示视点 发自 凹非寺量子位 | 公众号 QbitAI人工智能的蓬勃发展带来了算力需求的指数增长。摩尔定律和Dennard Scaling效应在CPU的性能提升上失效,针对于图形加速和高性能计算设计的GPU在AI计算领域略显乏力。百花齐放的AS

观点来自奥菲斯qubit | QbitAI,微信官方账号

人工智能的蓬勃发展带来了计算能力需求的指数级增长。

摩尔定律和登纳德缩放效应未能提升CPU的性能,为图形加速和高性能计算设计的GPU在AI计算领域略显弱势。

虽然遍地开花的ASIC AI芯片在某些方面有所改进,但也存在应用场景有限、依赖自建生态、客户迁移困难、学习曲线长等问题。

通用图形处理器GPGPU随着不断的迭代和发展,已经成为AI计算领域的最新发展方向。

技术开发既要兼容现有的AI软件生态系统,又要坚持自主创新。登麟科技“GPU+”创新架构应运而生,首款基于“GPU+”的芯片产品Goldwasser已经在多个行业实现商用。

为什么“GPU+”更适合解决高性能、通用性等AI计算问题?“GPU+”架构的核心竞争力是什么?“GPU+”架构的芯片能有多强大?

围绕GPGPU在人工智能领域的创新技术,登麟科技联合创始人王平在《量子比特视点》直播中分享了自己的经验和观点。

根据以下共享内容进行整理:

登麟科技是目前国内首家实现大规模商用落地的GPU企业。登临“GPU+”已经在安防、交通、医疗、金融、能源、电力、智能驾驶、互联网等多个行业实现商业落地。寄宿GPU+的主要特点是低碳、能效比高,在客户端用寄宿产品替代原有加速卡的比率很高。

我们独特的“GPU+”架构可以在硬件上支持CUDA/OpenCL等主流语言和主流AI框架,并针对AI计算做了深度优化。与传统GPU架构相比,GPU+的实测能效提升超过三倍。我们采用并坚持核心技术完全自主研发的路线。

计算:数字经济的引擎,智能社会的基石

在这个过程中,我们首先解决的问题是什么?它是计算能力。

算一算,其实它解决了一个比较新的概念——数字经济。从经济学的角度看,数字经济是指人们能够识别、选择、过滤、存储和使用大数据,实现资源的快速优化配置和再生,实现经济发展的经济形态。

在这种经济形态中,核心是数据。是数字经济的矿产,这个矿产含金量很高。要获得其中的“黄金”,就要像刚才说的那样,对其进行鉴别和筛选,需要对其进行打磨或挖掘——也就是在海量的、模棱两可的数据中,实现数据挖掘。

在这个过程中,计算工具成为了整个数字经济的基础设施。在这个大数据和智能应用的时代,它提供了重要的支持作用。

相对于传统工业时代,比如汽车行业的驱动力是马力,那么在数字经济时代,数字经济的驱动力无疑是计算力。人工智能领域对计算能力的需求每年都呈指数级增长,而计算能力最基本的来源就是计算芯片。

计算的重要性毋庸置疑。简单来说,芯片就是电脑。比如20多年前,我上中学的时候,提到计算机是386或者486。到目前为止,大规模并行计算的板甚至机器都被直接称为T4和A100。某种程度上是用芯片代替电脑。本质上,这些都是提供核心计算能力最重要的载体。

今天通过登麟科技四年多的发展经验和产品化的路线,给大家介绍一下登麟信是如何实现规模化落地的。

《登临信》是怎么创作出来的?

芯片行业的特点是属于充分竞争行业,俗称“老大吃肉,老二喝汤”。竞争是残酷的。

在如此残酷的市场竞争环境下,创造一个好的产品是非常重要的。不仅是好技术,更是好产品。“好”在于这个产品能解决客户的问题,而不仅仅是我们想解决的问题,或者是我们拥有的技术能解决的问题。

登麟成立之初,CEO李建文先生花了半年多的时间拜访了几十家客户,了解公司产品的需求和产品相关的技术架构。我们如何解决这些需求?我们需要以创新为魂,以计算为突破口,自主研发核心技术。

我个人认为,没有创新,就没有核心竞争力。登麟科技成立至今,用技术和产品说话。我们希望在商业市场上,产品能为客户创造价值。要实现这个目标,我们最核心、最有价值的东西必须来自创新。只有这样才能达到一个非常高的极限,或者至少打败竞争对手,否则我们无法为客户创造价值,我们也很难在如此残酷的市场中获得一席之地。

在一个竞争对手都是国际巨头的赛道上,我们不能只是抄袭别人或者引进落后的技术。回顾过去几十年我们处理器的发展,它的技术是不断迭代和发展的。不断迭代、优化、创新,才能让产品更有竞争力。

自研是计算核心部分的唯一出路。只有自我控制,才能在系统的关键路径、硬件、软件上避免一些不可控的瓶颈和堵点,这样才能提供一套完整的解决方案,更容易设计和优化客户面临的一些问题。

因为我们有自己的全方位架构,可以更深入的了解客户的痛点,通过一些软硬件协同设计,定点解决客户的问题。这种方法可以满足客户的需求,同时也能更好地帮助我们。

继续分析计算能力的问题。计算能力很重要,而且计算能力在不断增加。那么现在计算能力的增长点在哪里呢?

在我接触电脑的时候,增加计算能力还是比较容易的。通过改进技术,提高单核上CPU的频率,就可以简单地提高运算能力。当单核达到上限时,可以通过堆叠多核来提高计算能力。但即使工艺还在进步,摩尔定律还是基本无效,问题是功耗和散热是主要矛盾。

随着工艺越来越小,功耗受限,暗硅已经成为客观存在。这个时候解决问题的思路就不再是一味的多核,堆积计算能力。

但是客户需要计算能力,需要更高性能更低功耗的计算能力。要解决这个问题,对于我们来说,就让我们开始思考如何在功耗和带宽的约束下,以更有效的组合计算能力来选择最合适的架构。

芯片:异构计算是趋势,GPU+将成为主流AI芯片。

既然提到了选择,那就来看看对比方案吧。

第一个不得不说的对比方案是GPU和通用GPU。

对于从业者来说,GPU是一个优秀的架构,是为游戏和并行计算而生的。其主流的生态CUDA已经成为并行计算的标准,多年来不断完善。但无论如何改进,还是有一些根本问题无法在架构层面解决。他的效率在多条产品线上是平衡的,在AI场景下效率一般,但是提升效率低。

整个GPU产品线比较广,涵盖了很多领域。从公司理念或者产品理念上,也希望用一个框架来解决各个领域的问题。所以,当它在任何一个特定领域都无法做到最好的时候,它为其他产品提供了优化空甚至创新空,我们在思考如何在特定领域实现更高的效率。

在GPU领域有一定的局限性。主要问题是计算效率、存储子系统和片上延迟。这些基本问题导致其能耗高,但性能有限,效率一般。

从客户的反馈可以看出,他们对GPU是又爱又恨。GPU确实为他们创造了价值,但他们买的GPU存在性价比低的问题:一些冗余的通用设计组件是高价买来的,但这些组件无法在自己需要的领域发挥能效,增加了产品部署的成本。

客户迫切需要的是更节能的处理器,那么有吗?在登陆GPU+之前,有很多论文和Demo展示了一些更高效的解决方案。这些高效的方案在矩阵或卷积运算方向表现出更多的改进,具有更高的能效比和创新性。

但是,根据我们在客户中的研究结果,矩阵和卷积运算是重要的,但这并不是全部:这些方案也许能够解决矩阵加速中的一些问题,甚至在一两个具体应用中有一些好的效果,但这并不是处理器方案,因为字处理器本身就代表了某种一般性;这些解决方案无法为客户提供一套完整的通用解决方案。

一个网络或者一个应用中的一些加速在客户的业务线是无法连接的,他要做很多改变来适应这个业务线,而这些局部的加速只能应用于部分业务。对于客户来说,这是一个非常困难的解决方案,现在客户的应用程序实际上在不断发展,客户也在不断改进。但是如果只能解决一个问题,哪怕是比较重大或者比较集中的问题,在客户端上也很难实现。

通常,客户不会为了一次小小的促销而改变他整个方案的框架。事实上,改进方案的能力不一定是完整的,不能支持的部分就是灾难。从这个角度来说,加速方案虽然看起来很美,但是并不能很好的融入客户框架,或者说融入客户框架的成本太高。

我们要探索是否有一些好的解决方案,能够基于客户的基础应用框架进行很好的集成,能够支持客户使用自己熟悉的语言或者编程方法来实现定制化的需求。当这两点做到了,客户的接受度会更高,他会更愿意接受你的产品,他的创新可以用更通用的语言来表达,不用学专门的语言。

总结一下,其实两个重点是:高效率,硬件的高效率,整个解决方案的通用性和适用性。这是我们在AI领域要解决的最重要的问题。这两个问题可以归结为一个问题,其实就是效率的问题。

一个是机器要高效,也就是说我们要能提供一个高性能、低功耗、高能效比的系统。另一个是实现人的高效率,提高整个客户公司的效率,灵活易用。要实现这个目标,第一步是整合,第二步是优化,用客户熟悉的方法进行优化,这样才能实现快速落地。

这是客户的“既要又要”。那么,从我们自身对架构的设计要求出发,或者说一个基本要求,我们如何回答“既需要又需要”这个问题呢?也就是我们的产品方案既要求ASIC的高效率,又要求GPU的通用性。

通过刚才对问题的分析,我们可以看到,AI计算领域的异构系统应该是片上异构系统,这是一个很自然的选项。

刚才我们也提到了暗硅。传统的芯片并不能把所有堆叠的中效核都打开,但是邓林在芯片上选取一些异构的高、中、低效核组合在一起,完成提升计算能力的任务,让不同的核各司其职。

所以在AI领域,我们做的是用高密度处理器解决高密度计算需求,解决客户硬件能力的高效率问题。

当然,还有一个很重要的点就是密集并行计算的需求。对于并行计算,我们选择GPU加速,采用硬件兼容CUDA/OpenCL等现有软件生态。考虑与现有软件生态系统的兼容性是从客户端入手,让客户可以方便地编写自己的自定义操作符,从而快速实现解决方案的集成。

综上所述,我们最终设计开发了一个基于GPGPU的片上异构计算系统:GPU+,既有GPU的通用性,又有ASIC的高效性。

下面我将深入介绍GPU+的硬件和软件细节。

GPU+的核心是片上异构。在一个具体的应用领域,比如我们现在正在落地的AI场景,实现了我们的一个节能计算需求。以AI计算为例,AI计算中传递的数据是张量,运算是算子,尤其是大部分算子的算法都是结构化的。基于这个特点,我们设计了一个高效的处理单元,相应的软件栈只需要加速这些操作符。这部分应用程序易于使用,为高能效奠定了基础。而且我们的内存子系统是用CUDA/OpenCL语言编写的,可以让客户的生态代码实现无缝访问。此外,我们利用片上高速数据交换网络和软件管理的片上内存,最大程度地解决了低带宽、低延迟的问题,使GPU+实现了低功耗、高能效。

AI计算从一开始就有什么优势?比如今年H100发布的一些特性,我们可以看到他们试图解决一些内存访问和效率的问题,并引入了相关的编程模型。然而,这些问题在我们最初的架构之初并不存在,或者从一开始就可能有简单的解决方案。我们通过架构创新让复杂的问题变得简单。

此外,针对客户需求,GPU+通过在芯片上使用不同的计算单元,扩展xU,可以进一步加速解决业界常见的计算问题。

自主知识产权:大型芯片企业持续发展的根本动力

寄宿GPU+的核心竞争力是核心IP完全自主研发。

事实上,选择核心计算IP进行全自研是一条相对具有挑战性的路线。我们的核心计算IP,无论是架构,微架构包括运算器,包括SoC架构,都是独立设计的,每一行代码都是独立编写的。选择独立RD主要来源于我们团队在计算领域的自信和对计算IP的深刻理解。另一方面,我们坚信只有自主研发才能承担建筑创新,才能保证我们的竞争力。此外,计算能力产品需要深度迭代,精益求精,在广度上利用之前的技术和经验。只有自研,才能突破自我,在边缘端和云端迭代出不同应用需求的不同产品,实现企业的良性自我造血、循环、可持续发展。

基于GPU+,登临打造了第一个全系列的边缘到云产品:Glodwasser。Goldwasser系列产品:包括边缘计算产品Goldwasser UL,功率15-25W,INT8计算能力32-64 TOPS;Goldwasser L,半高半长服务器计算卡,功耗40-70W,提供128-256TOPS计算能力;还有一个全高全长的Goldwasser XL,输出512TOPS计算力。

在实际测量过程中,GPU+在40W TDP下输出128TOPS计算能力,相比国际主流产品功耗更低,性能更高。在相同的工艺上,GPU+在芯片面积更小、功耗相同的不同神经网络上可以提高3倍以上的计算效率,同时降低芯片性能对外部存储器吞吐量的依赖。此外,Goldwasser使用的Hamming工具链不仅支持传统GPU使用的硬件加速方式,还支持PyTorch、TensorFlow、Flying Paddle等国内外主流深度学习框架,以及国内外主流的x86、ARM产品。目前,登麟还与多家CPU和服务器厂商合作,适配多种CPU和服务器。

客户场景

目前,登麟Goldwasser已在安防、交通、医疗、金融、能源电力、智能驾驶、在线教育、互联网等行业实现商用,并成功实现量产供货。

此外,Goldwasser正在实现更多的AI应用,如视频审计、信息检索、自然语言处理等场景。大量的客户产品测试证明,GPU+相对于传统的用于AI计算的GPU,性能有了显著的提升,尤其是能效。

总的来说,大规模落地是我们的第一步。下一步,我们将继续与客户开展更深层次的合作,坚持核心技术的自主研发,创新迭代新产品,拓展更多领域的客户,为数字经济发展做出更广泛的贡献。

论“量子位观点”

量子发起的CEO/CTO系列分享活动,不定期邀请前沿科技领域的先锋公司CEO/CTO分享最新战略、最新技术、最新产品,与从业者、爱好者共同探讨前沿技术理论和产业实践。欢迎大家多多关注~

—结束—

量子量子比特

关注我们,第一时间获悉前沿科技动态。

 
友情链接
鄂ICP备19019357号-22