打开观测器

2022-08-02 21:45 来源：读者提供作者：网友发布浏览：0

核心提示云计算带来了集约化、效率、弹性与业务敏捷的同时，对云上运维提出了前所未有的挑战。如何面对新技术趋势的挑战，构建面向云时代的智能监测平台，让云上应用获得更好的保障，是如今摆在每一个企业面前的一道难题。在日前的【T·Talk】系列活动第八期中，

云计算带来了集约化、高效化、柔性化和业务敏捷化，但也给云运维带来了前所未有的挑战。如何面对新技术趋势的挑战，构建面向云时代的智能监控平台，确保云应用得到更好的保护，是每个企业面临的难题。

在近日的第八期【T Talk】系列活动中，51CTO特别邀请承云公司做客直播间，与大家分享在云时代打造数字化观测工具的经验和思考。

第一部分:数字化转型浪潮下的数字化运营痛点

数字化转型和数字经济建设是当今时代的大趋势。数字化转型可以说是人类历史上的第四次工业革命。我们日常的办公方式、支付方式、购物方式，包括出行方式，总是受到数字化的影响。简单来说，目前我们已经从传统的IT时代进入了数字DT时代。

在数字DT时代，数字化转型几乎重新定义了企业当前的业务和业务体验方式。然而，随着各行业数字化转型的深入，越来越多的数字化应用事故逐渐显露。比如今年年初某省市卫生码崩溃，核酸检测系统异常，都给社会造成了很大的影响。

调查显示，目前有60%的CEO认为数字化转型非常重要，企业正在这群人的带领下向数字化转型和人工智能大步迈进。然而，与之形成鲜明对比的是，95%的企业应用并没有得到有效的监控和关注。

目前大部分的数字化运营方式都是在传统的数据中心时代产生的，大量的工具或者技术都没有考虑到云计算的场景。随着云计算的普及，信息场景发生了巨大的变化。应用本身的复杂度是爆炸式增长的，分布越来越多，依赖越来越复杂，软件迭代越来越快。在这样的场景下，企业迫切需要为DT时代构建一套基于业务和数据流的解决方案。

DT时代产生了太多的新技术和新场景，比如现在火热的云原生。云原生的需求加速了从传统运维向应用运维的演进。传统场景下有很多基础设施，但是有了业务云，基础设施就会委托给运营商或者运营商。企业不再需要担心传统的机房管理、弱电管理、硬件监控、裸机监控、UPS配电和温湿度等问题。所以传统的设备运维也演变成了面向应用的站点可靠性运维，企业在传统运维上的投入会越来越少。

目前我们正处于向智能运维的过渡阶段。现在要做的是让数字化运维、IT运维变得更轻、更高效、成本更低。运维团队的精力需要集中在业务本身，业务是运维人员需要关注的重点问题。这些都会带来智能运维的需求。

第二部分:企业智能运维的典型技术路径

1.什么是智能运维？

关于智能运维，Forrester和Gartner在报告中有过定义:AIOps是一套将AI和数据科学应用于业务和运维的数据领域，从而建立关联并提供实时规范和预测答案的软件系统。AIOps可以是软件系统，所以可以是落地产品。AIOps可以增强和部分替代传统的主要IT运维功能，包括可用性和性能监控、事件关联和分析、IT服务管理和自动化。

AIOps是针对运营的，需要涵盖三个方面:观察、管理和处置。但目前行业整体水平更侧重于观察层面。Forrester对此也给出了一个经典的说法:AIOps承诺了更强的可观测性和稳定性。

Forrester认为，当前AIOps的核心价值之一是增强先验能力，增强和扩展你的可观察能力。

2.什么是可观测性？

可观测性最早诞生于控制理论，是指系统能够从外部输出推断其内部状态的程度。在IT领域，Gartner将可观察性定义为软件和系统的特征。具体是指根据系统产生的遥测数据来判断当前的系统状态和系统情况。这种能力就是可观察能力或者说可观察能力。

为什么需要可观测性？

在越来越多的分布式体系结构中，传统的监控技术和工具难以跟踪通信路径和依赖性。在原生或基于云的场景中，依赖关系非常复杂，这与许多传统的单一架构不再相同。可观测性可以更好的控制复杂系统，通过可观测性的三个数据支柱，可以直观详细的了解复杂系统的方方面面。

可观性不仅服务于运维，还服务于开发部、SRE部、支持部、市场部、业务部。所以，如果能把AIOps和可观测性整合起来，打造一个集成平台，就会得到一个完美的产品，一举两得。

3.企业实现智能运维的两种典型技术路径

企业IT智能运维的两种典型技术路径可以形象地概括为“外部AIOps”和“内生AIOps”。插件AIOps，通过旁路将AIOps的平台嵌入到企业IT运维环境中。AIOps是一个独立的算法平台。数据工程师通过接入企业的异构数据，梳理出数据之间的依赖关系，借助大数据处理技术，实现项目交付。

内生AIOps强调集成的技术路线。通过内生AIOps引擎，可以实现数据处理全过程的闭环，无需数据工程师的参与。类似于快递的流程，寄件人的货物相当于数据。拿到数据后，快递员会实施包装、仓储、调度、运输等操作。但是最终收件人收到这个物品，所有的中间处理环节都不需要寄件人和收件人经手。内生AIOps强调这种能力，将AI的能力嵌入到综合观测平台中。

技术差异:

外挂AIOps一般使用传统的机器学习AI。该技术本质上是一种统计方法，对度量、日志、事件等信息进行关联分析，目的是降低告警的噪声。通过机器学习AI，我们可以得到一组相关的报警。所以，需要一定的时间。一般来说，插件AIOps需要人工或历史记录来提出一个推荐或可能性的根本原因。

同时，外挂AIOps需要大量的外部数据，外挂AIOps厂商通常只做算法平台。数据清理、CMDB实体之间的依赖性等。都需要外部数据。所以想要做外挂AIOps，需要企业信息化运维成熟的体系建设，调用数据的前提，APM产品和相对完善的可观测性，才能做外挂AIOps。

内生AIOps提供了确定性的人工智能分析，以确定性的分析结果为目标，即问题发生后，问题的根源是确定性的，是一个接近实时的结果。内源性AIOps维护具有非常高实时性的矩阵依赖图。这种技术不需要依赖传统的静态CMDB，依赖图本身就相当于一个实时的CMDB，可以实时改变依赖关系，借助内生关系实现管理分析。

企业如何决定选择自己的技术路径？

在AIOps的落地层面，有很多问题是企业需要考虑的。从企业管理者的角度来看，除了成本、团队等基本问题，还需要考虑不同部门之间的平衡，以及成本、稳定性、效率之间的平衡。AIOps的目标不仅是解决问题，而且是合理地解决问题。在保证成本的同时，最大限度的提高业务的稳定性和效率。

在Forrester的一份报告中提到，企业在实施AIOps时需要关注以下关键功能:

AIOps平台能否与ITOM工具链无缝集成，能否高度自动化？

AI OPS平台非常重视原生数据，包括云原生依赖的信息和云原生机器数据。

全业务依赖图的自动化和全景图的构建

AIOps智能观察感知和自动着陆实践的未来

根本原因分析和事件补救计划的自动化程度

现代技术操作需要智能化和自动化。

从数据处理流程看两种技术路径的区别:

传统的AIOps平台，也就是插件式的AIOps平台，会在数据处理的过程中使用很多工具拼凑、组装，打造出一个摇摇晃晃的大数据系统。如果人员变动，很可能会有大量的技术债务留给新的交接人。

数据收集的第一步依赖于大量的开源和商业工具。第二步，将数据注入大数据平台。第三步，手动整理数据关系，清理数据。前三步非常耗时。第四步，发现问题，定位问题。在这一步中，AIOps厂商将参与进来，厂商团队需要登陆客户站点按需构建。厂家会提出要求，并提供相应的服务。第五，建立仪表板。第六，系统的扩展，随着应用系统规模的扩大，整个系统呈线性增长。

在整个过程中，数据工程师需要花费近80%的时间清理、收集和整理数据。整个解决方案需要运维领域的尖端人才，不仅是运维专家，还要懂算法，懂开发。AIOps本身就是一个支撑系统，用来解决问题的。但是，插件式的AIOps很可能会让运维变得更重，需要专门的团队来维护AIOps平台本身。

内生AIOps的数据处理流程非常简单，一个工具就可以解决数据采集。而且是高度商业化的产品，具备开箱即用的仪表盘能力，包括发动机等。所以后续的处理流程都是暗箱操作，不需要企业太在意，也不需要业务工程师懂算法，有SRE的技术水平。

同时，内生AIOps会随着企业业务系统的扩展而非线性增长。整个系统，包括用户和产品团队，都在非线性增长。整个方案布局的话，企业只需要安装一个代理，后面的很多都是自动的。这使得企业的运维人员能够专注于企业自身的业务。

总结:

行业需要新一代的软件智能平台，能够全面覆盖整个数据处理过程。直接交付客户想要的结果，而不是呈现原始数据。总的来说，在插件式AIOps和内生式AIOps两种技术路径中，更推荐企业使用内生式AIOps，这是一种智能运维的新范式。

第3部分:内生AIOps帮助云原生运维简化。

内生AIOps平台的目标是建立一个集成AIOps和可观测性的集成平台。它需要具备观察能力，观察能力要以应用监控为中心，这是面向最终用户的现象层。同时需要整合基础设施监控，包括云平台监控和黑匣子监控。最后，你需要具备面向前端的数字体验能力。

新的AIOps平台需要创建从数据访问到数据输出的连续自动化。需要有提前的能力，有预测预警的能力。

新的AIOps平台需要提供高水平的可观测性，不仅仅是把原始数据和零件展示给企业，而是关注现象和体验，给出准确的结果，最大限度地减少海量噪音对企业的影响和干扰。

内生AIOps的数据处理模型有很多不同，比如强调一个Agent在数据收集方面的能力。在数据处理方面，我们强调指标体系，指标体系的构建不同于传统的方式，我们强调内生AIOps是对集成平台的内生。

内生AIOps平台将主要从以下五个方面帮助云原生运维得到简化:

内生AIOps平台可以直接获取高质量的观测数据。

它可以创造持续的自动化能力，运维工作效率会更高。

该平台可以建立一个实时的矩阵拓扑结构，并遵循地图。

可以立即输出碰撞表面分析。

指出根本原因并见证结果

1.直接获得高质量的观测数据。

第一，直接获取高质量的监测数据。一个经典的总结就是“高质量的观测来源于高质量的遥测”，高质量的后端分析必然要求产生高质量的前端遥测数据。可观察性集中在三个支柱上。如果要做高阶可观测性和内生AIOps分析，需要五大支柱。除了传统的跟踪数据、指标和日志数据，您还需要非常关键的拓扑数据和代码数据。数据的质量可以直接决定模型的上限。

直接获得高质量的监测数据。这些数据必须在不修改源代码、业务和应用的情况下，非侵入式地自动采集，并能实现上下文信息和自动化的结合。上下文信息可以帮助实现真正的根本原因分析，从根本原因分析中提取高保真的背景信息，帮助平台构建实时的服务流图和拓扑图，做出依赖关系。包括矩阵关系拓扑，而且上下文信息也很关键。

拓扑图主要展示整个应用环境的依赖关系，包括垂直栈和水平栈。服务流程图从服务或请求的维度提供了整个事务的视图。通过服务流程图和拓扑图，可以解释服务之间的调用顺序。服务流程图展示了整个事务分布的顺序，是有序的，而拓扑图是更高层次的抽象，展示依赖关系等。

需要使用商业代理技术直接获得高质量的监控关系。虽然目前市面上有很多开源工具或者免费工具，但是商业代理技术有以下开源工具不具备的优势。

保证了采集代理探针的稳定性、安全性和可靠性。

可以保证探测主机和核心业务的资源开销和性能影响。

并且部署和检测，包括变更，可以使用更少的手动操作。

监控可以自动嵌入到动态方法或容器类的这些组件中。

各种指标精细采样，原生高保真

有足够的信息和上下文来构建统一的数据模型。

以上优势是很多免费工具所不具备的。内生AIOps平台依赖于一种代理技术。Agent有边缘计算的设计，在边缘和端点做了大量的数据聚合和数据清洗。

2.创造持续的自动化。

内生AIOps平台的功能旨在构建持续的自动化。监控复杂的云原生环境一定离不开自动化。包括自动部署、自动适配、自动发现、监控、注入和清理。在复杂的云原生环境下，人工很难理解这些端到端的服务，需要使用高度自动化的能力作为辅助工具来辅助自动化运维。

3.构建实时矩阵关系图。

内生AIOps平台可以构建实时矩阵拓扑。能够跟着地图走，看到图纸的水平方向，比如服务层、容器层、主机层、流程层等的依赖图。纵向是服务运行的容器，这个容器对应哪个流程，这个流程落在哪个云主机上。

4.即时输出碰撞表面分析。

输出面分析相当于网络安全的思维，在运维上是一样的。系统出现故障或异常，其影响是什么，哪些用户、服务和应用会受到影响，根本原因是什么。通过自动化的手段和技术，将结果输出给用户，无需运维人员人工分析。

5.指出根本原因并见证结果。

最后，自动化运维非常重要的能力是指向根本原因，见证结果。传统技术需要基于知识库、CMDB和因果推理的不同方法，而AIOps提供内生的根本原因定位。可以突破数据依赖，不仅是对象之间的依赖，还可以突破不同数据类型之间的依赖，比如调用链、日志、指标等。它提供了具有高适应性、低开销和高准确性的实时根本原因定位。而且，它拥有无人监管的技术，不需要太多的人工辅助来实现这些能力的交付。

第4部分:总结