运维工程师

2022-08-02 20:05 来源：读者提供作者：网友发布浏览：0

核心提示随着互联网、5G、IoT等技术的飞速发展,全球大型数据中心数量将以3.6%的复合年增长率增长,数据中心规模不断扩大,数据中心服务器规模已经达到10万级,这不仅需要更多的运维工程师,给企业增加运维成本,同时给运维工程师也带来了极大的难度和挑战

随着互联网、5G、物联网等技术的快速发展，全球大型数据中心数量将以3.6%的年复合增长率增长，数据中心规模将继续扩大。数据中心服务器规模达到10万台，不仅需要更多的运维工程师，为企业增加了运维成本，也给运维工程师带来了极大的困难和挑战:如何及时发现设备异常的根本原因，能否自愈，能否预测故障表现趋势，如何决策。

运维发展历程:人工运维、自动化运维、智能运维。

前期的运维工作大部分是由运维工程师人工完成的，也就是所谓的人肉运维。服务器的运行状态每天都要靠运维工程师的肉眼来定位和解决问题。自动化运维应运而生，大大提高了发现异常设备的效率，降低了运维成本。然而，面对故障的根本原因、故障预测、性能趋势和控制决策，自动化操作和维护是不够的。

Gartner在2016年提出了智能运维的概念，并预测到2020年，智能运维的采用率将达到50%。从服务器运维的角度，分析了服务器的智能运维。目标是收集带外信息和带内信息，通过机器学习解决运维问题，提高系统的预警能力和稳定性，降低运维成本，提高运维效率。

快速异常检测和准确的问题警报。

在服务器运维中，异常检测是基础。有三种常见的监控数据:状态指示器、性能指示器和日志数据。一般状态指标的虚警率较低，而性能指标的传统阈值设置往往在某一时刻产生噪声数据，导致虚警。对于周期性变化的数据，无法进行动态调整，往往会产生虚警，大大降低了报警的准确性。一般日志都是半结构化数据，根据日志级别产生告警，所以准确性极差，只能检测出已知的和某些模式异常。

浪潮服务器智能运维采用无阈值报警，无需人为设置阈值。对时间序列数据进行去噪、降维、方差等处理后。，通过神经网络、LSTM、随机森林等算法进行动态学习，从而自动、实时、准确地达到监控性能指标和识别异常数据。对于日志处理，通过对单个日志的语义识别和日志文件的时序识别，用自然语言、专家系统、神经网络、深度学习等算法进行训练或维护，从而不断完善，实现对日志异常的准确检测。

智能故障处理，操作简单，维护容易

智能故障诊断基于异常检测。有了准确的异常检测，通过整合各种异常指标进行数据融合、过滤、加权等处理。利用神经网络、SVM、随机森林等智能算法，找到问题的根源，给出问题的解决方案，让运维工程师分分钟解决问题。

智能故障预测是对设备某一部分的性能数据和状态的动态检测。挖掘原始数据，搜索特征数据建立数学模型，利用神经网络、SVM等智能算法进行在线/离线训练，形成预测模型。在组件出现故障之前，它会检测到故障，从而避免业务停机并提高系统稳定性。

智能自愈是指在故障被确认或预测后，系统可以通过重启、配置或某一过程恢复正常，无需人为干预。故障自愈，需要维护一定的规则或者标记故障。经过神经网络、SVM等算法训练，形成自愈模型，实现系统故障自愈。

智能决策和对未来发展的感知

浪潮服务器智能运维工具可以预测服务器的性能数据。通过ARIMA、最小二乘法、指数平滑、LSTM等智能算法，可以感知系统数据在未来几小时、几天或一年内的趋势、增长或周期性变化，不仅为人工预测或智能决策提供基础数据，还可以为业务系统提供优化建议。

浪潮服务器智能决策基于异常检测、故障诊断、故障预测、性能预测等。通过数据模型的建立和神经网络、深度学习、专家系统等智能算法的不断学习。，形成一个决策模型。无需人工干预，智能调整服务器配置参数，升级/回滚版本基线，达到系统性能最佳、异常最少、功耗最低。

比如监控服务器的性能，可以在业务少的时候降低服务器的功耗，甚至可以在集群模式下关闭服务器，在业务量大的时候将服务器性能调整到最优水平。在整个机柜/机房中，功耗的管理，所有服务器满载时，服务器的功耗是否超过整个机房或机柜的最大功耗，超过最大功耗后如何智能决策等。

智能推荐，发现无限价值。

智能推荐是对平台上的大量数据进行统计、计算、分析、挖掘的处理，建立数据模型。通过神经网络、深度学习、最小二乘法、SVM等智能算法，建立推荐模型，实现对整个数据中心的分析和预测，从而指导客户进行服务器拆除、备件数量、扩容、缩容、采购厂商等决策。比如某型号服务器故障率过高，维护成本相应增加，建议下架。因为业务增长，需要购买新的服务器，可以通过智能算法进行评估并推荐。

目前，浪潮依托自身技术优势，自主研发了一系列自动化、智能化的服务器管理软件集，实现了从服务器上架、配置、部署、监控、故障分析的全生命周期运维管理。其中，ISPIM突破了大型基础设施智能管理平台的分布式网格架构、高性能数据采集框架、智能分析系统和无状态管理技术，实现了大型服务器全生命周期的智能管理。