随着互联网、5G、物联网等技术的快速发展,全球大型数据中心数量将以3.6%的年复合增长率增长,数据中心规模将继续扩大。数据中心服务器规模达到10万台,不仅需要更多的运维工程师,为企业增加了运维成本,也给运维工程师带来了极大的困难和挑战:如何及时发现设备异常的根本原因,能否自愈,能否预测故障表现趋势,如何决策。
运维发展历程:人工运维、自动化运维、智能运维。

前期的运维工作大部分是由运维工程师人工完成的,也就是所谓的人肉运维。服务器的运行状态每天都要靠运维工程师的肉眼来定位和解决问题。自动化运维应运而生,大大提高了发现异常设备的效率,降低了运维成本。然而,面对故障的根本原因、故障预测、性能趋势和控制决策,自动化操作和维护是不够的。
Gartner在2016年提出了智能运维的概念,并预测到2020年,智能运维的采用率将达到50%。从服务器运维的角度,分析了服务器的智能运维。目标是收集带外信息和带内信息,通过机器学习解决运维问题,提高系统的预警能力和稳定性,降低运维成本,提高运维效率。
快速异常检测和准确的问题警报。
在服务器运维中,异常检测是基础。有三种常见的监控数据:状态指示器、性能指示器和日志数据。一般状态指标的虚警率较低,而性能指标的传统阈值设置往往在某一时刻产生噪声数据,导致虚警。对于周期性变化的数据,无法进行动态调整,往往会产生虚警,大大降低了报警的准确性。一般日志都是半结构化数据,根据日志级别产生告警,所以准确性极差,只能检测出已知的和某些模式异常。
浪潮服务器智能运维采用无阈值报警,无需人为设置阈值。对时间序列数据进行去噪、降维、方差等处理后。,通过神经网络、LSTM、随机森林等算法进行动态学习,从而自动、实时、准确地达到监控性能指标和识别异常数据。对于日志处理,通过对单个日志的语义识别和日志文件的时序识别,用自然语言、专家系统、神经网络、深度学习等算法进行训练或维护,从而不断完善,实现对日志异常的准确检测。
智能故障处理,操作简单,维护容易

智能故障诊断基于异常检测。有了准确的异常检测,通过整合各种异常指标进行数据融合、过滤、加权等处理。利用神经网络、SVM、随机森林等智能算法,找到问题的根源,给出问题的解决方案,让运维工程师分分钟解决问题。
智能故障预测是对设备某一部分的性能数据和状态的动态检测。挖掘原始数据,搜索特征数据建立数学模型,利用神经网络、SVM等智能算法进行在线/离线训练,形成预测模型。在组件出现故障之前,它会检测到故障,从而避免业务停机并提高系统稳定性。
智能自愈是指在故障被确认或预测后,系统可以通过重启、配置或某一过程恢复正常,无需人为干预。故障自愈,需要维护一定的规则或者标记故障。经过神经网络、SVM等算法训练,形成自愈模型,实现系统故障自愈。
智能决策和对未来发展的感知
浪潮服务器智能运维工具可以预测服务器的性能数据。通过ARIMA、最小二乘法、指数平滑、LSTM等智能算法,可以感知系统数据在未来几小时、几天或一年内的趋势、增长或周期性变化,不仅为人工预测或智能决策提供基础数据,还可以为业务系统提供优化建议。

浪潮服务器智能决策基于异常检测、故障诊断、故障预测、性能预测等。通过数据模型的建立和神经网络、深度学习、专家系统等智能算法的不断学习。,形成一个决策模型。无需人工干预,智能调整服务器配置参数,升级/回滚版本基线,达到系统性能最佳、异常最少、功耗最低。
比如监控服务器的性能,可以在业务少的时候降低服务器的功耗,甚至可以在集群模式下关闭服务器,在业务量大的时候将服务器性能调整到最优水平。在整个机柜/机房中,功耗的管理,所有服务器满载时,服务器的功耗是否超过整个机房或机柜的最大功耗,超过最大功耗后如何智能决策等。
智能推荐,发现无限价值。
智能推荐是对平台上的大量数据进行统计、计算、分析、挖掘的处理,建立数据模型。通过神经网络、深度学习、最小二乘法、SVM等智能算法,建立推荐模型,实现对整个数据中心的分析和预测,从而指导客户进行服务器拆除、备件数量、扩容、缩容、采购厂商等决策。比如某型号服务器故障率过高,维护成本相应增加,建议下架。因为业务增长,需要购买新的服务器,可以通过智能算法进行评估并推荐。
目前,浪潮依托自身技术优势,自主研发了一系列自动化、智能化的服务器管理软件集,实现了从服务器上架、配置、部署、监控、故障分析的全生命周期运维管理。其中,ISPIM突破了大型基础设施智能管理平台的分布式网格架构、高性能数据采集框架、智能分析系统和无状态管理技术,实现了大型服务器全生命周期的智能管理。


