浪潮信息物理基础设施管理平台解决大型数据中心服务器运维难题

核心提示随着互联网、5G、IoT等飞速发展,数字化、智慧化的建设对算力提出更高的要求,数据中心向着规模化、集约化、绿色化不断演进,根据ResearchAndMarkets 《全球数据中心托管服务市场机遇》报告显示,超大规模数据中心预计将从2019年

随着互联网、5G、物联网等的快速发展。数字化、智能化建设对计算能力提出了更高的要求,数据中心正向规模化、集约化、绿色化方向发展。根据ResearchAndMarkets的《全球数据中心托管服务市场机会》报告,超大规模数据中心预计将从2019年的509个增加到2025年的890个。这将改变数据中心的建设和使用方式。数据中心的规模不断扩大,大型数据中心的服务器数量已经达到10万以上的量级,这意味着对运维的难度、人力、成本、专业性提出了更高的要求。企业数据中心的运维压力正面临前所未有的挑战。打破传统运维模式,打造“监督、管理、控制、预防”的智能运维是解决问题的关键。

什么是智能运维?

首先需要了解数据中心运维的发展,主要包括人工运维、自动化运维、智能运维三个阶段。

所谓人肉运维,是指在早期,数据中心的大部分运维工作都是由运维工程师人工完成的。服务器的运行状态每天都要靠运维工程师的肉眼来定位和解决问题。每个工程师运维的上限是400台左右。这种低效的运维方式,在数据中心服务器越来越多,人力成本越来越高的时代,很难持续。

因此,自动化运维应运而生。运维工程师根据运维经验编写脚本,进行批量设备巡检,后来发展为基于任务的设备巡检,这是早期的自动化运维方式。这大大提高了发现异常设备的效率,降低了运维成本。然而,面对故障根源、故障预测、性能趋势和控制决策,自动化运维却无能为力。

根据Gartner的《2021年中国ICT技术成熟度曲线报告》,AIOps市场将持续增长,并影响整个IT运维管理市场。报告预测,AIOps将在未来2-5年内进入成熟期,并将帮助企业大幅节约成本。从服务器运维的角度,分析了服务器的智能运维。目标是收集带外信息和带内信息,利用机器学习解决上述问题,提高系统的预警能力和稳定性,降低运维成本,提高运维效率。

浪潮信息打造智能物理基础设施管理平台。

浪潮信息物理基础设施管理平台ISPIM,在异常检测、故障诊断、故障预测、故障自愈、性能预测等方面实现多维度智能运维。通过7 * 24小时纳米管监控数据中心的IT设备。

异常检测

在服务器的运维中,最根本的就是检测异常,常见的有三大数据的检测:状态指标、性能指标、日志数据。

状态指示器:当服务器状态异常时,浪潮信息ISPIM管理软件以主动/被动方式聚合服务器异常,防止重复告警和误告警,同时定位多个告警同时发生的根本原因,防止告警风暴和告警瘫痪。

性能指标:在性能指标检测方面,传统的方法是设置一个阈值,但是由于某个时刻会产生噪声数据,所以经常会出现虚警。通过重复次数、阈值抖动范围和自学习数据密度分布的方案,可以解决99%由噪声数据产生的虚警;但是面对周期性变化的数据,无法动态调整,会出现虚警,大大降低了报警的准确性。浪潮ISPIM管理软件通过AI优化,动态分析性能数据在时域、频域、能量等方面的变化。采用LSTM和随机森林进行预测,报警准确率达到98%。

日志:日志一般是半结构化数据,根据日志级别产生报警。精度不够,只能检测出已知的、明确的模式异常。浪潮ISPIM管理软件拥有4000+运维专家资源库,有助于实现服务器故障的快速诊断。同时,在智能日志故障诊断方面,将对采集的日志进行重新编码,不断深化深度学习、LSTM等算法的研究和实际应用,实现多维度的服务器异常分析,异常检测准确率高达99%。

故障诊断

为了进一步提高运维效率,浪潮信息ISPIM管理软件不仅对日志故障进行诊断,还对系统宕机后的数据进行深度分析,方便快速定位问题,提高效率。

通过分析收集到的海量数据,我们发现服务器的宕机通常是由CPU MCE的故障引起的。一般来说,MCE的来源有两个,一个是CPU本身的故障,一个是来自CPU外部的组件。浪潮ISPIM管理软件带外采集服务器CPU寄存器数据,基于MCA技术架构,定位CPU触发源,分析MC Bank,分析CSR和MSR寄存器,实现故障原因确认和故障组件精确定位,根据浪潮信息专家经验库给出故障问题专业解决方案,提升运维效率。

故障预测

据统计,数据中心由内存和硬盘引起的故障占50%以上,这主要是因为硬盘和内存量大,生命周期相对较短,利用率高。当内存或硬盘出现故障时,非常容易出现严重的停机。

就内存而言,内存产生的CE可以通过ECC机制纠正,但是频繁的CE往往会导致UCE,往往会导致系统宕机。因此,记忆衰竭的预测可以转化为UCE的预测。浪潮信息ISPIM管理软件通过多个维度对内存CE进行统计分析,包括总CE频率、固定物理地址CE频率阈值、固定单元CE频率阈值、CE在列中的分布范围和频率阈值,得出UCE与CE的相关性,从而预测UCE。

对于硬盘,大部分数据中心的存储阵列都会采用一些冗余机制,但这只能保证有限的硬盘故障场景。一旦故障磁盘的数量超过RAID冗余的限制,就有可能导致系统停机或数据丢失的风险。浪潮ISPIM管理软件通过分析SMART标准获得硬盘故障预测的关键数据特征,基于模型算法进行训练,优化模型算法,输出为推理算法模型,通过SMART索引和硬盘运行日志预测风险磁盘。同时,当硬盘预测达到换盘指标时,可以支持换盘操作。

通过这些技术的优化,浪潮信息ISPIM管理软件可以实现内存和硬盘的故障预测,大大提高系统的稳定性。

故障自愈

浪潮ISPIM管理软件在故障自愈方面可以支持内存故障的自动隔离。在操作系统级,结合MCE日志数据信息和CE故障信息,通过虚拟内存故障页面诊断算法确定内存故障的页面,在操作系统内核中执行页面离线,通过虚拟内存技术隔离对故障内存区的访问,实现内存故障隔离。在物理内存层面,基于CE故障信息,采用物理内存故障诊断算法,通过SPPR和HPPR隔离物理内存故障行,从技术上实现故障内存的永久隔离,提高操作系统的稳定性和可靠性,从而保障业务的稳定可靠运行。

性能预测

性能预测是指服务器的性能数据,通过智能算法如ARIMA、指数平滑、LSTM、Prophet等进行预测。,能够感知系统数据在未来几小时、几天或一年内的趋势、增长或周期性变化。浪潮ISPIM管理软件,依托自主研发的性能分析核心组件,可支持数万台服务器同时监测和告警秒级性能数据,帮助运维人员实时掌握设备性能状态,实现对磁盘寿命和容量的预测,准确率高达99%。

浪潮信息物理基础设施管理平台ISPIM,具有资源管理、故障监控、性能监控、能耗管理、自动部署、报表统计、网络拓扑、3D视图等功能。可以同时对上万台不同品牌的服务器、存储、网络设备进行监控、维护和告警,运维效率提升2倍。基于浪潮信息故障专家库的大数据规则故障诊断功能,可将故障诊断准确率提升至93%,在快速处理故障的同时,可大幅降低数据泄露风险,帮助用户搭建无人值守的数据中心,提高运维效率,降低运维成本,保障数据中心安全、可靠、稳定运行。

 
友情链接
鄂ICP备19019357号-22