系统的运行与维护

2022-08-02 20:02 来源：读者提供作者：网友发布浏览：0

核心提示IT 运维服务体系的建议追从“易使用、易汇总、易管理”的先后顺序，由重到轻的依次解决客观存在的问题，以便最大程度的加快 IT 运维服务体系的建设的目标。运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以

IT运维服务体系建议遵循“易使用、易总结、易管理”的顺序，客观问题由重到轻解决，以最大程度加快IT运维服务体系建设。运维服务体系由运维服务体系、运维服务流程、运维服务机构、运维服务团队、运维技术服务平台、运维对象六部分组成，涉及系统、人、技术、对象四个要素。

运维体系是规范运维管理的基本保障，也是流程建立的基础。运维机构相关人员按照制度要求和标准化流程，采用先进的运维管理平台，对各类运维对象进行标准化的运行管理和技术操作。

IT故障定位是指对故障的直接原因或根本原因的诊断，故障定位有助于故障恢复行动更加有效。故障定位通常是整个故障过程中最耗时的环节。定位的目标是快速恢复，而不是找到问题的根源，这是问题管理的职责。通常情况下，大部分可用性故障是通过运维专家经验的假设判断或已知方案的实施来解决的，但有些故障，尤其是性能、应用逻辑和数据故障，需要多方协作和工具支持。

在数据中心，很多技术运维人员往往具有敏锐的发现已知故障的能力，能够根据自己遇到的故障迅速找到问题的根源。更有资深专家可以通过系统内部原理，从一些普遍的故障现象中猜出某一现象背后可能的原因。根据故障的表象判断可能的诊断路径，是一个运维技术专家必备的能力，往往是通过大量的运维案例积累起来的。这也是专家不同于普通运维人员的地方。准确的数据收集实际上依赖于运维知识。

比如我们要做故障分析，这就需要用到CPU资源，那么如何收集数据呢？求某段时间内CPU使用率的平均值或最高阈值？CPU利用率100%会有问题吗？其实没那么简单。事实上，CPU的突然峰值大多是无害的，可能不会对我们的系统产生不良影响。只有当长期CPU利用率接近高水平时，CPU才有可能出现资源不足的瓶颈，从而影响系统的性能。

一、运行维护处理原则

IT系统运行过程中，难免会出现问题或故障。故障排除的原则可以总结为两条:

所有措施或方法都以快速恢复业务为优先。

bug或匹配需要及时升级优化。

1.1.恢复业务是当务之急

业务恢复优先级意味着无论在任何情况下出现何种级别的故障，都应该首先恢复业务。这和故障定位不一样，很多人会有歧义，认为没有找到问题的根源，业务怎么恢复？这里有一个简单的例子:

如果A、B系统调试的应用最后失败，如何发现问题并解决？

从应用a的服务器Ping应用B的网络，如果端口和网络连接，直接绑定服务器B的主机。

排查问题，找出A和B之间会经过哪些链路，找出有问题的链路，包括跨服务器区域、跨网段等。，如HA连接异常，则重启或扩展并恢复。

通常，第一种方法需要很短的时间。如果A和B之间有跨机房访问，那么第一种方法需要更长的时间来检查。虽然破坏了A和B之间的架构平衡，但是可以立即生效，也就是我们所说的优先恢复业务。

1.2.及时升级

这个很好理解。任何故障发生的时候，任何人都只能对故障的影响做一个简单的预测，所以要及时升级到你的领导，让他掌握第一手信息，协调资源。如果出现下列情况，那么它必须立即上升:

非常重要的业务严重报警故障，如网银交易系统、主机CPU超过阈值等。;

2.有明确的业务影响，如双11或618促销、国庆或重要节假日等突发业务指标波动；

3.治疗时间明显过长；

4.大型厂商的安全升级包或设备或升级系统；

5.系统性问题，监控中心或相关系统已被关注并受此故障影响。

二、运维模式

根据运维工作要求和运维响应时间，决定构建完整的运维方案，确定服务标准。现场软硬件巡视是增强运维计划执行力的主要途径。通常情况下，数据中心的运维工作流程如下:

构建完整的运维计划:在整个运维过程中，计划是整个工作流程的核心。按照计划先行的原则，根据本年度工作计划制定分项工作计划和时间维度计划，并按照流程和计划实施和保障。

现场检查的重要性:现场检查计划是运维工作计划的重点。通过现场检查，可以找出系统的薄弱环节、关键业务节点和隐患，特别是制定应急预案和备件计划非常重要。

执行的重要性:运维计划的实施是运维工作的重点。运维计划实施过程中，应严格按照流程规范进行运维，并注意控制以降低运维风险。对于运维的实施，应定期向用户进行反馈。

运维标准:签订售后服务承诺书，与客户约定服务水平。承诺的服务水平，包括提供的资源和解决方案，应按照约定严格执行。

三。操作和维护处理方法

IBM在云时代新的运维方法论被称为CSMO，它有四个主要来源:

第一，ITIL，尤其是ITIL 4，是新时代国际IT服务标准的最新版本，对于敏感的IT来说也是一个全新的版本。它包括ITIL V3的特性，并增加了对DevOps等的支持。

其次是敏感的IT运维方法论SRE，是互联网和公有云的运维服务方法论；

第三，基础设施即代码集成了基础设施自动化流程、运维以及全球最佳实践和案例。

第四，加强运营与开发的联系，将IT服务管理的组织、文化、流程与DevOps结合起来。

运维服务包括信息系统相关网络设备、安全设备、机房基础设施、主机设备、操作系统、数据库和存储设备等信息系统的运行、维护和安全服务，保障用户现有信息系统的正常运行，降低整体管理成本，提高网络信息系统的整体服务水平。同时根据日常维护数据和记录，提供用户信息系统的整体建设方案和建议，更好地为用户的信息化发展提供有力保障。

用户信息系统的组成可以分为两类:硬件设备和软件系统。硬件包括网络设备、安全设备、主机设备、存储设备等。软件可分为操作系统软件、典型应用软件、业务应用软件等。

一般来说，故障处理可以分为三个阶段:故障前、故障中、故障后。故障前指的是故障的位置分析，故障期间指的是故障处理过程，故障后指的是故障总结，这很重要。

从故障服务的角度来看，运维处理故障的方法

从故障服务的角度来看，运维恢复最重要的三种方法是:隔离、重启、降级。

隔离；隔离

隔离是指从集群中撤出故障对象的过程，目的是使故障对象不再提供服务。隔离方法包括以下两种，按常见频率排列:

将上游重量调整为零。如果架构中有自检测机制，还可以直接停止故障对象的服务，让上游健康检测时效。

通过绑定主机或配置路由来绕过故障对象。比如智能路由管理域关闭某条线路。这里需要注意的是防止雪崩效应。

重新开始

有两种类型的重启:服务重启和服务器重启。如果出现故障，流程中涉及的任何一个环节都可以重启。重启的一般顺序是:故障对象>故障对象上游>故障对象下游。一般离故障对象越远，重启顺序越晚。

使降低

降级是指为了防止更大的故障而采取的一种预先计划。一般来说，降级一定不是用户当前生产的最优状态。即使没有技术上的影响，也多多少少会带来一些业务上的影响。虽然用户可以通过其他方式暂时回复一些业务，但是会带来不好的用户体验和一些用户影响。