容器的发展史

核心提示回顾2021年,云原生领域有哪些重要意义的事件?1. 基于容器的分布式云管理加速落地:2021年5月阿里云峰会上,阿里云发布了一云多形态的部署方式,基于飞天架构的一朵云可以全面覆盖从核心地域到客户数据中心的各种计算场景,为客户提供低成本、低

回顾2021年,云原生领域有哪些重大事件?

1.基于容器的分布式云管理加速落地:

2021年5月阿里云峰会上,阿里云发布了云多形态部署模式。一个基于天妃架构的云,可以全面覆盖从核心区域到客户数据中心的各类计算场景,为客户提供低成本、低延迟、本地化的公有云产品。

在一云多形态发布之前,阿里云容器服务在2019年云起大会上发布了云下Kubernetes的注册集群能力,支持云下不同Kubernetes集群的统一管理。2021年,阿里云容器服务进一步全面升级中央云、本地云和边缘云的容器集群统一管理,可以将成熟的云原生可观察和安全防护能力部署到用户环境,也可以将云的先进中间件、数据分析和AI能力下沉到本地,满足客户对产品丰富性和数据可控性的需求,加速业务创新。并且依托强大的弹性计算能力,通过托管弹性节点,企业可以按需从本地扩展到云端,实现秒级扩展,从容应对周期性或突发性的业务流量高峰。

到2021年,基于Kubernetes构建分布式云架构,屏蔽异构环境的差异,已经成为企业和云厂商的共识。

2.Knative1.0正式发布:

作为一个基于Kubernetes的开源无服务器编排框架,Knative提供了为Kubernetes标准化API编排无服务器应用程序的能力。Knative支持很多功能:基于流量的自动弹性、灰度发布、多版本管理、收缩到0、事件驱动Eventing等。《CNCF 2020中国云原生调查报告》显示,Knative已经成为在Kubernetes上安装无服务器的首选。

2021年11月,Knative发布了1.0版本。同月,谷歌宣布将Knative捐赠给云原生计算基金会。阿里云提供Knative的托管,结合阿里云基础设施,提供冷启动优化、基于预测的智能弹性等增强功能,实现了社区标准与云服务优势的深度融合。

2021年集装箱技术有哪些突破?背后的问题是什么?

2021年,企业将更加积极地拥抱容器,对容器核心技术的启动效率、资源开销和调度效率有更高的要求。阿里云容器团队还支持新一代容器架构的升级,通过对容器、裸机、操作系统等的全栈优化,不断挖掘容器的潜力。

高效调度:新升级的Cybernetes调度器支持NUMA负载感知、拓扑调度和多架构神龙的细粒度资源隔离和混合,应用性能提升30%。此外,在调度器上做了大量端到端的优化,可以在1000节点的集群中提供20000Pods/min以上的调度速度,保证在线服务和离线任务在K8s上高效运行;

高性能容器网络:最新一代阿里云容器网络Terway 3.0,一方面通过龙芯卸载虚拟化网络开销,另一方面通过OS内核中的eBPF实现容器服务转发和网络策略,实现零损耗高性能。

容器优化的操作系统:对于容器场景,引入了LifseaOS,这是一个轻量级、快速、安全的容器优化操作系统,具有镜像原子管理。与传统操作系统相比,软件包数量减少60%,镜像大小减少70%,OS首次启动时间从1分多钟减少到2s左右。支持映像只读和ostree技术,管理OS映像版本,以整个映像的粒度更新操作系统上的软件包或固化的配置。

高密度部署灵活性:基于阿里云安全沙盒容器2.0,优化了沙盒容器内的资源开销,最低约30M,实现了单台物理机上2000个实例的高密度服务能力。同时,通过缩短控制环节和精简组件,辅以优化沙盒内存分配流程、主机cgroup管理流程和IO环节,实现了无服务器场景下6秒3000弹性容器实例的弹性。

企业容器的应用规模趋势如何?核心的诉求点是什么?

随着企业对容器的进一步大规模使用,企业内部的容器使用范围也逐渐从最初的线上业务发展到AI大数据,对GPU等异构资源的管理、AI任务和作业的管理等需求越来越多。同时,开发者正在考虑如何通过云原生技术,用统一的架构和统一的技术栈支持更多类型的工作负载,避免不同的工作负载,使用不同的架构和技术,带来“烟囱”系统、重复投资和运维负担。

深度学习和AI任务只是社区寻求云原生技术支持的重要工作负载之一。在阿里云,我们提出了“云原生AI”的定义、技术全景和参考架构,以便为这一新的技术领域提供最佳实践,并推出了云原生AI套件,通过数据计算任务的安排和管理,以及各种异构计算资源的容器化统一调度和运维,可以显著提高GPU/NPU等异构计算集群的资源利用效率和AI项目交付速度。

根据AI计算任务的特点,在Kubernetes核心调度器框架的基础上做了大量的扩展和增强,提供了Gang调度、Capacity调度、Binpack等任务调度策略,提高了集群的资源利用率。并积极与K8s社区合作,不断推动K8s调度器框架的演进,确保K8s调度器可以通过标准插件机制按需扩展各种调度策略,满足各种工作负载的调度需求。同时,避免了其他定制调度程序对集群资源分配造成数据不一致的风险。

支持GPU共享调度、拓扑感知调度、NPU/FPGA等定制芯片调度,提高AI任务的资源利用率。同时,通过阿里云自主研发的cGPU方案,在不修改应用容器的情况下,隔离GPU内存和计算能力。

在计算与存储分离的驱动下,本文基于Fluid提供了一层高效便捷的数据抽象,将数据从存储中抽象出来,通过数据亲和调度和分布式缓存引擎加速实现数据与计算的融合,从而加速计算对数据的访问。并且支持Alluxio和JindoFS作为缓存引擎。

支持GPU等异构资源的灵活伸缩,通过智能削峰填谷,避免云上不必要的资源消耗。支持弹性模型训练和模型推理。

对企业容器的应用提出了哪些新的要求?

随着5G、IoT、音视频、直播、CDN等行业和业务的发展,我们看到一个行业趋势:企业开始将更多的计算能力和服务下沉到离数据源或终端用户更近的地方,以获得良好的响应时间,降低成本。

这明显不同于传统的中心云计算模式,从而延伸了边缘计算。边缘计算作为云计算的延伸,将广泛应用于混合云/分布式云、物联网等场景。它需要未来的基础设施去中心化、边缘设施自治和强大的边缘云托管能力。云原生架构的新边界——“云-边-端一体化”的IT基础设施开始出现在整个行业面前,而这也是新场景下企业对云原生技术和容器化应用的需求。

边缘计算云的原生架构和技术体系需要解决以下问题:云边缘运维协同、弹性协同、网络协同、边缘物联网设备管理、轻量化、成本优化等。针对云边缘集成的新需求,2021年,OpenYurt社区还发布了0.4、0.5等版本。,持续优化边缘容器的物联网设备管理、资源开销、网络协作等能力。

从技术的角度来看,集装箱发展亟待解决的主要问题有哪些?

随着K8s在企业中的大规模应用,如何不断提高K8s集群的整体稳定性是核心挑战。K8s集群作为一个分布式系统,是高度复杂的。应用、基础设施和部署过程中的任何问题都可能导致业务系统的失败。这不仅需要应用K8s的企业具备云原生容器技术的高可用性系统保障,更需要企业云原生运维系统理念的全面升级。

用SLO定义驱动可观测性系统:为K8s的产能规模构建绩效压力测量的归一化能力,需要对K8s集群以上业务场景中包括节点号、POD号、作业号、核心动词在内的QPS数有清晰的认识。将SLO与真实业务场景相结合,持续关注请求量、延迟、错误数、饱和度等黄金指标。

正常故障演练和混沌测试:比如结合混沌工程理念的ChaosBlade,将不同的异常案例注入到容器集群的不同风险动作中,模拟从VM、K8s、网络、存储到应用的各方面故障。

精细化的流量控制和风险控制:为了建立针对压力测试和故障演练期间发现的异常的保护能力,Kubernetes可以在1.20 beta中使用API优先级和公平性的细粒度流量控制策略。阿里云容器服务还内置了自研的UserAgentLimiter,进一步保护K8s。

除了建设全球高可用能力,还需要建设SRE团队的平台能力:

打造了统一的K8s运维服务接口,沉淀了运维观察能力,让每个SRE/DEV都能做到OnCAll或无差别支持。有两个子目标:1)尽量避免问题;2)尽快发现和定位问题,尽快恢复问题,构建整体高可用的应急系统。

练习与实践:立足场景练习,知行结合。从知道触发到行的完成是一个闭环,然后经历一个知行循环的过程。以赛带训,如双十一促销、停电、断网等极端场景,稳定性建设,需要针对极端场景进行,容量规划和压力测量,组件管理等。都是在一些特殊的场景下诞生的。有了竞技场,要想打好这场仗,需要大家齐心协力,不断形成大的协调机制。

固化知识,沉淀剧本:这件事就是建立标准。在制定标准的过程中,一部分先落入体系,一部分沉淀成剧本,一部分体现在过程中。该流程必须是我们优秀工程师和SRE的最佳实践。系统、剧本和流程不断变化,相辅相成。

2022年容器技术的发力点是什么?集装箱的未来有哪些想象空?

日前,国际权威咨询机构Forrester发布了全球容器能力报告《Forrester Wave TM:公有云容器平台,Q1 2022》。报告显示,阿里云是国内唯一进入报告“领导者”象限的服务商,容器产品综合能力得分最高。

2022年阿里云容器技术将聚焦几个方向:

低碳:持续发挥容器技术的高效调度和灵活性,帮助企业提升整体IT效率。结合最新节能数据中心技术、新一代神龙架构、自研芯片和容器优化操作系统,实现上下游全栈优化,提升应用整体性能和调度效率。以数据驱动的方式,根据应用运行时资源画像实现智能调度和实时调整,简化了应用资源分配的复杂性,进一步增强了应用的混合部署,降低了资源成本,有助于企业整体FinOps管理。

AI工程:AI要成为企业的生产力,就要用工程技术解决模型开发、部署、管理、预测、推理等问题。我们发现,AI工程领域有三件事急需推进:数据和计算能力的云端生化、调度和编程范式的规模化、开发和服务的标准化和普及化。这些都需要不断优化GPU等异构架构的高效调度,结合分布式缓存、分布式数据集加速等技术,结合KubeflowArena的AI任务流水线和生命周期管理,全面升级AI工程能力。

智能自治:通过引入更多基于数据的智能手段,推动容器的智能运维体系,减少企业对复杂容器集群和应用的管理,增强K8s主、组件、节点的自愈、自恢复能力,提供异常诊断、K8s配置推荐、弹性预测等更友好的能力。

安全:全面推进DevOps向DevSecOps的演进。针对舵工、操作员等OCI神器,优化整体安全定义、签名、同步、三方交付;加强集装箱南北向、东西向网络隔离治理,推进零信任链路安全;进一步提高安全容器和机密计算容器的性能和可观察性。

原文链接:http://click.aliyun.com/m/1000335886/

本文为阿里云原创内容,未经允许不得转载。

 
友情链接
鄂ICP备19019357号-22