系统的运行与维护

核心提示IT 运维服务体系的建议追从“易使用、易汇总、易管理”的先后顺序,由重到轻的依次解决客观存在的问题,以便最大程度的加快 IT 运维服务体系的建设的目标。运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以

IT运维服务体系建议遵循“易使用、易总结、易管理”的顺序,客观问题由重到轻解决,以最大程度加快IT运维服务体系建设。运维服务体系由运维服务体系、运维服务流程、运维服务机构、运维服务团队、运维技术服务平台、运维对象六部分组成,涉及系统、人、技术、对象四个要素。

运维体系是规范运维管理的基本保障,也是流程建立的基础。运维机构相关人员按照制度要求和标准化流程,采用先进的运维管理平台,对各类运维对象进行标准化的运行管理和技术操作。

IT故障定位是指对故障的直接原因或根本原因的诊断,故障定位有助于故障恢复行动更加有效。故障定位通常是整个故障过程中最耗时的环节。定位的目标是快速恢复,而不是找到问题的根源,这是问题管理的职责。通常情况下,大部分可用性故障是通过运维专家经验的假设判断或已知方案的实施来解决的,但有些故障,尤其是性能、应用逻辑和数据故障,需要多方协作和工具支持。

在数据中心,很多技术运维人员往往具有敏锐的发现已知故障的能力,能够根据自己遇到的故障迅速找到问题的根源。更有资深专家可以通过系统内部原理,从一些普遍的故障现象中猜出某一现象背后可能的原因。根据故障的表象判断可能的诊断路径,是一个运维技术专家必备的能力,往往是通过大量的运维案例积累起来的。这也是专家不同于普通运维人员的地方。准确的数据收集实际上依赖于运维知识。

比如我们要做故障分析,这就需要用到CPU资源,那么如何收集数据呢?求某段时间内CPU使用率的平均值或最高阈值?CPU利用率100%会有问题吗?其实没那么简单。事实上,CPU的突然峰值大多是无害的,可能不会对我们的系统产生不良影响。只有当长期CPU利用率接近高水平时,CPU才有可能出现资源不足的瓶颈,从而影响系统的性能。

一、运行维护处理原则

IT系统运行过程中,难免会出现问题或故障。故障排除的原则可以总结为两条:

所有措施或方法都以快速恢复业务为优先。

bug或匹配需要及时升级优化。

1.1.恢复业务是当务之急

业务恢复优先级意味着无论在任何情况下出现何种级别的故障,都应该首先恢复业务。这和故障定位不一样,很多人会有歧义,认为没有找到问题的根源,业务怎么恢复?这里有一个简单的例子:

如果A、B系统调试的应用最后失败,如何发现问题并解决?

从应用a的服务器Ping应用B的网络,如果端口和网络连接,直接绑定服务器B的主机。

排查问题,找出A和B之间会经过哪些链路,找出有问题的链路,包括跨服务器区域、跨网段等。,如HA连接异常,则重启或扩展并恢复。

通常,第一种方法需要很短的时间。如果A和B之间有跨机房访问,那么第一种方法需要更长的时间来检查。虽然破坏了A和B之间的架构平衡,但是可以立即生效,也就是我们所说的优先恢复业务。

1.2.及时升级

这个很好理解。任何故障发生的时候,任何人都只能对故障的影响做一个简单的预测,所以要及时升级到你的领导,让他掌握第一手信息,协调资源。如果出现下列情况,那么它必须立即上升:

非常重要的业务严重报警故障,如网银交易系统、主机CPU超过阈值等。;

2.有明确的业务影响,如双11或618促销、国庆或重要节假日等突发业务指标波动;

3.治疗时间明显过长;

4.大型厂商的安全升级包或设备或升级系统;

5.系统性问题,监控中心或相关系统已被关注并受此故障影响。

二、运维模式

根据运维工作要求和运维响应时间,决定构建完整的运维方案,确定服务标准。现场软硬件巡视是增强运维计划执行力的主要途径。通常情况下,数据中心的运维工作流程如下:

构建完整的运维计划:在整个运维过程中,计划是整个工作流程的核心。按照计划先行的原则,根据本年度工作计划制定分项工作计划和时间维度计划,并按照流程和计划实施和保障。

现场检查的重要性:现场检查计划是运维工作计划的重点。通过现场检查,可以找出系统的薄弱环节、关键业务节点和隐患,特别是制定应急预案和备件计划非常重要。

执行的重要性:运维计划的实施是运维工作的重点。运维计划实施过程中,应严格按照流程规范进行运维,并注意控制以降低运维风险。对于运维的实施,应定期向用户进行反馈。

运维标准:签订售后服务承诺书,与客户约定服务水平。承诺的服务水平,包括提供的资源和解决方案,应按照约定严格执行。

三。操作和维护处理方法

IBM在云时代新的运维方法论被称为CSMO,它有四个主要来源:

第一,ITIL,尤其是ITIL 4,是新时代国际IT服务标准的最新版本,对于敏感的IT来说也是一个全新的版本。它包括ITIL V3的特性,并增加了对DevOps等的支持。

其次是敏感的IT运维方法论SRE,是互联网和公有云的运维服务方法论;

第三,基础设施即代码集成了基础设施自动化流程、运维以及全球最佳实践和案例。

第四,加强运营与开发的联系,将IT服务管理的组织、文化、流程与DevOps结合起来。

运维服务包括信息系统相关网络设备、安全设备、机房基础设施、主机设备、操作系统、数据库和存储设备等信息系统的运行、维护和安全服务,保障用户现有信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护数据和记录,提供用户信息系统的整体建设方案和建议,更好地为用户的信息化发展提供有力保障。

用户信息系统的组成可以分为两类:硬件设备和软件系统。硬件包括网络设备、安全设备、主机设备、存储设备等。软件可分为操作系统软件、典型应用软件、业务应用软件等。

一般来说,故障处理可以分为三个阶段:故障前、故障中、故障后。故障前指的是故障的位置分析,故障期间指的是故障处理过程,故障后指的是故障总结,这很重要。

从故障服务的角度来看,运维处理故障的方法

从故障服务的角度来看,运维恢复最重要的三种方法是:隔离、重启、降级。

隔离;隔离

隔离是指从集群中撤出故障对象的过程,目的是使故障对象不再提供服务。隔离方法包括以下两种,按常见频率排列:

将上游重量调整为零。如果架构中有自检测机制,还可以直接停止故障对象的服务,让上游健康检测时效。

通过绑定主机或配置路由来绕过故障对象。比如智能路由管理域关闭某条线路。这里需要注意的是防止雪崩效应。

重新开始

有两种类型的重启:服务重启和服务器重启。如果出现故障,流程中涉及的任何一个环节都可以重启。重启的一般顺序是:故障对象>故障对象上游>故障对象下游。一般离故障对象越远,重启顺序越晚。

使降低

降级是指为了防止更大的故障而采取的一种预先计划。一般来说,降级一定不是用户当前生产的最优状态。即使没有技术上的影响,也多多少少会带来一些业务上的影响。虽然用户可以通过其他方式暂时回复一些业务,但是会带来不好的用户体验和一些用户影响。

降级不仅仅是运维的问题,更是联合业务RD或者业务研发推广的问题,所以做任何项目的时候,首要考虑的不是这个项目能达到多大的性能,而是出现异常怎么办?

这样,核心应用程序和组件应该是相同的。作为应用的负责人,必须考虑的是,如果这个对象出现重大故障,是否有使用的预案,并且要明确这些预案的触发条件和执行人。

降级,从某种角度来说,是运维最后的保命手段,必须重视。

以上操作方法,尤其是重启和隔离,有一个重要的前提,就是对象必须是无状态的,如果需要开发重试,要求必须是幂等的。除非一个对象是非常特殊的业务,可以暂时存在,其他的都是不允许的,所以生产中的对象应该只有三种状态:

无国籍,这是大多数。

暂时状态,需要整改。

处于存在的状态,少量地

从故障方看运维故障处理方法

首先,在故障处理过程中会遇到系统故障所涉及的内部或外部组织结构。一般情况下,需要以下三类人员同时处理故障:

信息传递者:他们的职责是传递故障处理和故障定位的有效信息,对外传递故障进展信息;

故障定位器:他们的职责是当故障处理程序方法失败或者需要找到问题的根本原因时,解决故障;

故障排除人员:他们的职责是尽快恢复营业。

对于IT运维系统来说,这三类人往往不会同时出现。比如凌晨值班的时候,他们只需要故障处理员来处理就可以了。业务恢复后,故障定位器会在第二天查找根本原因和优化措施。

此外,故障发生后,受影响的当事人可分为两类:

内部用户

内部用户包括内部应用调用问题和内部用户查找问题,方法与外部用户类似。

外部用户外部用户的处理会比较麻烦。处理的思路是如何把外部用户变成内部用户。比如供应商打不开公司网站,这时候有两个方面要做:

本地模拟是否可以复现,如果可以复现,那么就不是用户和IDC之间的公网问题,而是内部系统问题,然后就变成内部用户处理了。

如果不能重现自己的本地模拟,那就多找内部用户模拟,防止自己的环境问题。同时让用户将主机绑定到其他入口,消除DNS和一些外网链接问题。如果此时用户绑定主机后正常访问,那么业务就会恢复,可以确认有很大概率是外部问题。

如果以上两个方面都不行,那就比较麻烦了。这时候在处理之前要收集一些必要的外部用户信息,比如导出IP,使用的客户端版本等。这里建议有一个收集信息的模板,可以一次性完成,因为外部用户的处理时间往往花费在沟通成本上。

 
友情链接
鄂ICP备19019357号-22