鲲鹏智能计算

2022-08-03 07:04 来源：读者提供作者：网友发布浏览：0

核心提示受全球新冠疫情影响，6月22—25日，ISC20大会在线上举行。作为高性能计算领域最重要的国际会议，仍旧吸引了4000多名来自全球各地的超算专业人员参会。在科技领域，超算不仅是新技术的引领者，也是早期应用的引领者，ISC 20的主题是 “塑

受全球新冠肺炎疫情影响，ISC20大会于6月22日至25日在线举行。作为高性能计算领域最重要的国际会议，它仍然吸引了来自世界各地的4000多名超级计算专业人士。

在科技领域，超级计算机不仅是新技术的引领者，也是早期应用的引领者。ISC 20的主题是“塑造未来，同时拓展科学认知，帮助解决与每个人息息相关的社会、经济、民生等迫切问题。

超级计算过去以科学计算为主，逐渐向新兴的大数据、人工智能、深度学习演进，AI+HPC融合加速。

随着人工智能和大数据的融合发展，“高精尖”的超级计算机逐渐走向商业化，在医学、能源探索、天气预报、生命科学、基因分析、游戏视频制作、电力、教育、工程、政府决策、互联网服务等多个领域加速发展。，这也加速了超算产业的软硬件协同和生态发展。

多架构和多样性计算的时代正在到来。

HPC一直是计算的明珠，工业的金字塔。

在今年的TOP500排名中，基于ARM架构的超级计算机“福悦”系统荣登榜首，以Linpack实测性能415.5 flop/s和理论峰值514 p flop/s正式登顶，其性能比排名第二的Summit系统高出近3倍，成为ARM芯片发展乃至市场化的重要里程碑。

随着应用场景的多样性带来数据的多样性，没有一个单一的计算架构可以满足所有的场景和所有的数据类型。应用的变化使数据发生根本性的变化，处理和分析数据的计算能力随着数据类型的不同而不同。从异构计算到支撑AI快速发展的暴力计算，从无处不在的计算到数据并行高效移动的端边缘云协同计算，要整合这些力量，充分发挥计算价值，我们需要一个能够支撑全场景计算的。

可见，多种计算架构并存是未来计算的发展之路。提供多样化的计算能力，帮助客户适应更多的应用和业务，并在计算领域不断创新，华为致力于解决一直困扰计算能力大发展的痛点。华为在x86计算、AI计算、鲲鹏计算三条主线上持续投入计算领域18年。

在鲲鹏计算领域，华为于2004年推出面向终端的K3处理器，2009年将ARM引入无线网络的基站，2017年推出ARM64的泰山100服务器。

在不久的将来，随着整体连接数的增加，需要接收、存储和分析海量数据，需要高并发、高性能、高能效、高吞吐量的计算能力，数据中心需要鲲鹏计算能力。

面向大数据、分布式存储、原生应用、高性能计算、数据库等应用领域，华为去年发布了泰山服务器五大解决方案，为客户带来新一轮的计算能力加持，提供高性能硬件和弹性软件的全面解决方案，推动HPC的落地。

AI+HPC融合加速AI计算驱动落地

在2020年TOP500新增的衡量超级计算机系统机器学习应用性能的HPL-AI排名中，富悦峰值性能达到1.45EFlop/s，同样排名第一。投入使用后，在理研选定的9个目标应用中，富悦系统的性能将比其前身“京”最高提升100倍。

这也意味着AI成为HPC应用的新领域，特别是本次ISC大会设置了以“Covid 19 HPC/AI”为主题的研讨会，重点分享美、日、欧等国家和地区利用最新HPC和AI技术抗击Covid 19的经验和成果，以及全球超算总动员抗击疫情。

在AI融合和超级计算的趋势下，与HPC厮杀多年的华为变得更有竞争力。以AI计算为例，Atlas 900集群的产品技术创新加快了AI+超级计算的步伐。

Atlas 900集群不仅提供了最强的计算能力，还集成了HCCS、PCIE4.0和100G RoCE三种高速接口，大大提高了集群的系统级能力。随着系统级能力的提升，集群的计算能力可以达到256P到1024P，相当于50万台PC的计算能力。

同时，Atlas 900训练的集群达到了极限能效，其中AI集群的PUE指数低于1.1。去年参观E企研究院举办的华为云计算松山湖数据中心时可以看到，华为云东莞松山湖数据中心一期使用了160个预制模块，13天就可以组装一栋8MW IT容量的5层建筑。

这种前瞻性的设计基于华为的全液冷方案，可以节省大量机柜，降低能耗。比如在提供256P和FP16计算能力的情况下，Atlas只需要16个机柜，但功耗只有36kW。可以这样比较:如果采用传统的GPU模式，可能需要208个机柜，1352kW功耗。如果使用通用x86来组装这种计算能力，可能需要6195个机柜，消耗40268千瓦的电力。

现在，Atlas 900驱动着人工智能的快速落地，如计算机视觉、自然语言、自动驾驶、智慧城市、智慧医疗等基础研究、探索和应用。

举个简单的例子，在衡量AI计算能力的黄金标准ResNet-50模型的训练中，Atlas 900完成训练用时59.8秒，比原世界纪录快了10秒。当人类为你探索宇宙的时候，Atlas 900需要10秒的时间，从一个有20万颗恒星的star 空图中找出一颗具有某种特征的恒星。在此之前，天文学家花了大约169天才完成同样的事情。

全栈优化鲲鹏可以加速HPC应用

要推广高性能计算应用，让高性能计算运行良好，让所有软件高效运行在高性能计算系统上，需要全方位的方案支持。

如何加强硬件、软件、基础设施的优化？华为在HPC软硬件领域不断创新迭代；在创新计算架构的同时，持续的软件优化，再加上鲲鹏开源生态的加持，华为构建了一个完整的生态。

HPC应用对计算速度要求极高，这意味着这类集群在处理器、内存带宽、计算模式、I/O、网络等方面都要追求极致的性能。

华为各个领域的科学家和软件开发专家根据各自领域的算法创新解决方法，采用不同的编程模型，让鲲鹏HPC更好地服务于各行各业。他们长期以来一直投资于以下三个领域:

层:计算系统、下一代NAS存储系统、网络互联；中间件:华为MPI、工具链、集群管理、作业调度；上层应用:气象学和海洋，制造业，计算化学，生命科学，石油和天然气，人工智能和其他领域。

以制造仿真、天气预报、基因测序等典型的高性能计算应用为例，它们都要求计算节点具有大的内存带宽能力。基于鲲鹏处理器业界领先的8通道内存技术，泰山服务器可以提供比业界高33%的系统内存带宽，进而利用泰山的多核和高并发计算能力。

同时，华为为泰山服务器搭建了完整的鲲鹏HPC软件栈，涉及底层工具软件和管理软件，包括业界关注的MPI和scheduler。华为泰山服务器支持常见的NFS、Lustre和BeeGFS文件系统，其计算节点上使用的存储客户端与X86节点完全兼容。可无缝接入现有HPC集群，为用户带来调度管理、存储共享等方面的卓越体验，帮助客户快速部署高性能计算应用环境，统一鲲鹏HPC集群的高效管理，与合作伙伴共同解决商业、医疗、科学等领域最难解决的挑战。

对于HPC客户来说，全栈解决方案是现在，而生态是未来。

鲲鹏计算平台启用HPC领域后，这种能力通过组织架构高效转化为成果，在行业合作伙伴、产业发展、开发者生态等领域充分发力。目前OpenHPC是一个完整的HPC开源软件栈，已经在华为泰山服务器上进行了全面测试。

通过与众多HPC应用软件提供商和开源社区的合作，华为可以携手客户和合作伙伴投入代码迁移、优化和基准测试的技术资源，同时联合投入OpenLab、代码迁移优化和基准测试的技术资源，与客户和合作伙伴共建开源/内部应用迁移联合实验室，让业界广泛使用的HPC商用和开源软件陆续成功移植到鲲鹏计算平台，从而加快HPC民主化的步伐。

变革和创新从未停止。DT时代关注最新基础设施设施和技术的进展，关注企业数字化转型的优秀案例，关注企业级解决方案和技术的传播以及创新型企业的成长，触及企业的转型与变革。目前覆盖今日头条、百家号、知乎、搜狐新闻、田甜快报、凤凰新闻、网易新闻、大鱼号、一点资讯等多个平台。