运维工程师主要是做什么

2022-08-02 20:05 来源：读者提供作者：网友发布浏览：0

核心提示本文由IPFS原力区Joss原作前言固然运维这个职能范畴对于绝大多数人来说认知模糊，特别是在分布式存储领域，“运维”常常和“机房”“IDC”等名词相伴，导致很多异业者对于运维的了解停留在物理层面，以搬运机器、上下架服务器、管理网电等为标

本文是基于原工作的乔斯在IPFS部队地区

颜倩

虽然运维的功能范畴在大多数人看来比较模糊，尤其是在分布式存储领域，“运维”往往伴随着“机房”、“IDC”等名词，导致很多不同行业对运维的理解都停留在物理层面，拿着处理机，装卸服务器，管理网络电源等。作为基准，并维护机器运行，如网络管理。实际上，运维工程师从工作方法上来说，分为很多类别，比如运维工程师、运维开发工程师、运维平台开发工程师、数据库工程师、数据库开发工程师等。，这说明运维能力超过了为业务定制的原生工具的开发。

运维工程师负责维护和保证整个服务的高可用性，同时不断优化系统架构提高部署效率，优化资源利用率，提高整体ROI。

随着Filecoin主网的临近，业内对于“运维”重要性的共识基本达成一致。随着行业布道信息和内容的升级，越来越多的投资者步入理性分析。无论是从Filecoin项目的阶段动态，还是从挖矿服务商的选择来看，在主网破晓前夕，现阶段最重要的运维工程师都准备好了吗？

首次操作和维护

1.1什么是运维？

运维一般指互联网运维，是结合RD、测试、系统管理四大技术部门。

具体来说，运维的技术方向包括服务监控技术、服务故障管理、服务容量管理、服务性能优化、服务全局流量调度、服务任务调度、服务安全保障、数据传输技术、服务自动发布和部署、服务集群管理、服务成本优化、数据库管理、平台开发、分布式存储平台的开发和优化等。分布式是明确的技术要点之一。

同时，在运维工作中，运维人员要兼顾Web服务器、监控、自动部署、配置管理、负载均衡、传输工具、备份工具、数据库、分布式平台、分布式数据库、容器、虚拟化、安全、问题追踪等大而全、小而细的事情。

运维工程师通过软件或命令行与第三方系统实时同步数据，实现可视化监控平台与各系统的无缝连接，保证系统数据的准确性和稳定性，及时处理报警信息，提高动态和环境监控管理的效率。

动态监控从2008年出现至今已有十二年，主要包括以下几个模块:

配电系统:UPS及DC电源、自备发电机、配电柜、防雷检测等。环境:空调节、温湿度监测、漏水监测、气体监测等。消防系统:感烟感温、预警系统、其他消防设备等。安防系统:图像监控、门禁监控、红外检测、玻璃破损检测等。IT网络管理监控:网络设备、PC服务器、操作系统、数据库和应用等。

此外，运维工程师还需要注意:

联动控制:电子开关、联动录像、数据存储、运动控制等。事件:运行记录、状态记录、异常记录、确认记录等。异常报警:声光报警、语音播报、电话报警、短信报警、邮件通知等。运维人的一天从打卡开始到打卡结束，一次又一次的忙碌。“007”的工作模式并不少见。

1.2操作和维护历史

运维需要做的是控制系统运行中存在的变量，但是异构复杂的运维环境导致日常运维的人力和时间成本越来越高。

从最初的运维到最新的智能运维，主要有四个过渡阶段:

脚本、工具、自动化、智能化两年前，“智能运维”开始被大家广泛关注。随着大数据分析、APM、智能异常检测、机器学习等技术的兴起和成熟，运维需求逐渐转向自动化和智能化。

自动化的意义

2.1自动操作和维护模式

是智能的前提。自动运维模式解决了硬件和网络的自动管理、虚拟机的自动管理、操作系统和软件的自动安装和配置等问题。我们见过很多“管理”。一方面，自动化的意义是提高效率，优化成本，优化资源，更加灵活，释放资源去做别的事情；另一方面，运维成果可以标准化、可复制。

当然，从工具化到自动化的过程并不那么容易。对于整个行业来说，目前更多的工作是在探索自动化。作为为数不多的自动化运维服务提供商，深耕分布式存储多年、Filecoin源代码近两年的IPFS Force Area向为行业发展付出努力的技术领袖致敬。

回到运维，在Filecoin领域，标准运维软件的开发不同于其他相对传统的运维软件。比如阿里从工具到自动化的过程中，我觉得工具的挑战比较小。即使是传统的运维人员，也可以很轻松的编写一些工具，比如用Python编写更多的工具系统。但是，如果开发者的工具最终会达到自动化的阶段，那就意味着对工具的要求会越来越高，比如工具的质量。如果开发者写的工具经常出问题，规模大了就承受不了压力了。这个时候，从人性的角度来说，开发者会慢慢失去信任，最后很难完成这个过程。

当自动化运维实现监控、问题诊断、可视化等。，运维人员只留下一些手动任务，包括容灾切换、应急操作、应用部署、启动和停止等。，让剩下的大量精力可以投入到运维开发上，为用户带来更好的服务体验。

2.2实现自动化的途径

一套完整的综合动力和环境监控系统，可实时采集分布式独立动力设备、机房环境和安全监控，实时监控系统和设备的运行状态和安全，记录和处理相关数据；及时发现故障，进行必要的远程控制和调整操作，并及时通知驻地和远程运维处理；可以实现机房的少人甚至无人值守，以及电源和空的集中监控和维护管理，提高供电系统的可靠性和通信设备的安全性，为机房管理和科学决策的自动化甚至智能化提供有力的技术支持。

但目前Filecoin领域真正的自动化运维实践占比很小，优秀的、原生的定制化运维系统更是少之又少，原力矿池就是其中之一。

Filecoin操作和维护的重要性

3.1演进概念

3 . 1 . 1 devo PS的工作原理

在DevOps模式下，开发团队和运维团队不再“孤立”。他们将在应用程序的整个生命周期中相互协作，开发一系列不限于单一功能的技能。这些团队将利用实践经验，自动执行以往人工操作的缓慢流程，使用能够帮助他们快速可靠地操作和开发应用的技术系统和工具，进一步提高团队的工作速度。

3 . 1 . 2 devo PS的文化理念

向DevOps过渡需要文化观念和心态的转变。DevOps的目的是消除两个传统上孤立的团队之间的障碍。他们努力频繁沟通，提高效率，提高客户服务质量。他们可以完全控制自己的服务，并经常超越其既定角色或职能的传统工作范围来考虑最终用户的需求并解决这些需求。

3 . 1 . 3 evops实践说明

有一些重要的实践经验可以帮助组织通过自动实现和简化软件开发和基础设施管理过程来加速创新。这些实践经验大多需要通过合适的工具来完成。一个基本的实践经验就是经常进行小范围的更新。

这是组织快速为客户提供创新的有效方式。与传统出版实践中的偶尔更新相比，这种更新通常更为渐进。频繁的小规模更新可以降低每次部署的风险。它们可以帮助团队更快地处理错误，因为团队可以确定导致错误的最新部署。尽管更新的速度和规模可能不同，但使用DevOps模式的组织将比使用传统软件部署实践的组织更新得更频繁。

此外，组织可以使用微服务架构来提高应用程序的灵活性，从而加快创新的步伐。微架构将大型复杂系统分解成简单的独立项目。应用程序被分割成许多单独的组件，每个服务仅限于一个目的或功能。这些服务可以独立于它们的同类运行，也可以作为一个整体与应用程序一起运行。这种架构降低了更新应用程序的协调成本。当每个服务对应一个控制每个服务的小型敏捷团队时，组织可以实现更快的开发。

但微服务和更高发布频率的结合，会导致部署大幅增加，带来运营挑战。因此，DevOps的持续集成和持续交付等实践经验有助于解决这些问题，并使组织能够以安全可靠的方式快速交付。与基础设施(即代码和配置管理)一样，基础设施自动化的实践经验也有助于保持计算资源的灵活性和对频繁变化的适应性。此外，监控和记录的实际经验可以帮助工程师跟踪应用程序和基础设施的性能，以便他们可以快速响应问题。

3.2Filecoin运维与传统运维的区别

相比传统的互联网运维，Filecoin矿商的运维难度要高出数倍甚至数十倍，这主要是受挖矿模式的影响。比如整机串并联时，难度只围绕单个固件上的程序稳定性工作。然而，如果采用集群或分布式矿池，集群之间的高标准请求调度和按需分钟部署对运维工程师来说是一个很大的挑战。在Filecoin网络计算能力需求快速增加的情况下，集群矿池模式的运维依然可以自如面对，而其他模式的运维则需要堆积人力物力来解决此类情况。

如果Filecoin的运维与传统的运维有所不同，下面是以下几个方向的例子:

物理层:由于阿里云这样的服务商没有标准化的服务支持，Filecoin云服务需要更加注重底层架构，需要定制化的自建IDC，这远远多于硬件。SaSS:Filecoin软件服务层也需要大量的运营工具来支持数据可视化，所以运维需要平台化开发，可视化工具。在这个过程中，运维参与了大量的研发工作。运维流程:传统运维参与人员少，逻辑简单，多以Web的形式访问界面，端口监控可以做的很好。反馈结果基本可以控制大部分变量，过程简单；但是Filecoin流程复杂，需要维护的模块多，自动化难度高，数据监控复杂且频率高。尤其是惩罚机制，就像达摩克利斯之剑，时刻警告矿工，即使这么难也不能犯错。客户的数据存储需求和服务是Filecoin的第一要务。准确性:运维需要物理层监控，但对于Filecoin来说，封锁时间、封锁率、计算能力趋势、Lotus同步高度准确性等维度的监控与物理层运行状态同等重要。在传统的运维场景中，一个异常处理的需求可能是小时级的，数千万用户的应用服务可能是分钟级的。而Filecoin网任何一个参数的异常都有可能对矿工造成巨大的收入损失和抵押惩罚，容易导致得不偿失的局面。另外，Force Zone的运维要针对官方Lotus代码进行优化，测试运维的开发能力、程序运行结果的稳定性，实现健康检查、故障自动重启、故障自愈等。，都是为了提高CPU利用率，从而将计算能力、块输出、营收、效率提升2-3倍。

3.3项目发布的差异

3.3.1频率

传统的互联网项目是以固定的频率和时间发布的。比如每周三，部署原因多为修复BUG和新增功能。就目前Filecoin网络情况来看，目前Force运维需要灵活部署，随时部署，随时更新链版本，第一时间打掉现有集群，整个流程重新部署。任何细节都要经过几十次的复核和测试，才能实现对网络变化的快速响应，这也是实时优化。

颗粒尺寸

Filecoin挖掘服务不仅实现了数据监控和运维应用状态监控的可视化，还具有极其精细的粒度，如自动监控P1-P7状态和扇区过程中的返回值。

当Force Zone的运维工程师把数据、自动化、精细化、平台化的粒度做到足够精细的时候，分分钟完成国内外的自动部署。后台一键管理所有服务器，并行部署新代码，自动化工具压缩部署时间，从而节省99%耗时的效率优化。一分钟远程部署少至100兆的数据包对行业来说是一个挑战，但对Filecoin矿池技术来说是一个飞跃。

自动化大规模运维

目前Filecoin测试中大矿商原有的“5PB”标准已经不是对行业的挑战。预计主Filecoin网络上线前3-6个月达到1000PB。这个数据带来了Filecoin运维工程师提前准备的一个作业:如何大批量运维？

门后是凌晨3点的原力矿池队。

目前看来，自动化运维是解决大规模集群运维的必由之路，也是运维工程师面临的最大挑战。如何管理数十万台服务器上的服务并保证服务的高可用性，需要集群复制能力。但与传统运维项目相比，复制部署的复杂程度要高出十倍。做好上架设备的24小时现场维护和支持工作；高频回路监控和日志记录确保设备运行；分布式部署和分布式监控系统保证了系统运行；核心网监控，护航设备-系统-应用连接；成熟的1-guarantee-5冗余保护策略确保数据安全；攻防防护等。等。，这还远远不够。运维之路漫长而无止境...

总结

当我们所期待的主网到来时，Filecoin的开发工程师将逐渐退休，Filecoin的开发最终将交付给社区。网络运行靠的是大矿商运维工程师的技术。

在Tai 空比赛的最后一关，运维工程师的忙碌会得到回报。具体情况目前不得而知。让我们看看8月25日。