近日,日本电信运营商KDDI和加拿大电信运营商Rogers相继断网,引起了全球电信行业长时间、大面积、广影响的广泛关注。一般来说,运营商对电信网络的质量要求很高,不会轻易出现故障的问题。那么,为什么一向以质量可靠著称的电信网络会出现重大质量事故呢?在网络IT和云时代,电信级的高可靠网络服务如何继续保持?

同样,日本电信运营商KDDI在7月初也出现了通信中断的情况。这次失败影响了大约1/3的日本人口,并且持续了很长时间。网络花了86个小时才完全恢复。信息社会对网络和通信的依赖放大了失败的影响。更不用说电子商务、移动支付、电子门票、电子政务、远程办公、在线教育、视频直播等应用了。,甚至是抢险救灾、医疗救助、气候预警等紧急需求。,都被迫进入了一种不正常的状态。
加拿大创新、技术和工业部长弗朗索瓦-菲利普·香槟(Franois-Philippe Champagne)在评论罗杰斯的断网事故时说:“这种不可接受的情况表明了为什么质量、选择多样性和可靠性在电信网络中如此关键。”
在随后的声明中,罗杰斯首席执行官托尼·斯塔菲瑞(Tony Staffieri)将断网的可能原因缩小为核心网的维护升级和路由器运行异常。他还提出要更深入地定位问题的根源,通过增加冗余来避免故障的再次发生。托尼·斯塔菲里(Tony Staffieri)表示,“我们将采取一切必要措施,不断增加网络投资以强化系统,增加网络健壮性,并加强相关网络测试。”
从这简短的陈述中,我们可以解读出一些重要的信息:第一,网络中断不是由外部攻击引起的,而是由内部升级引起的,换句话说,是由一个“主动的”变化引起的;其次,冗余可以避免故障的再次发生,这表明网络的某些关键部分存在单点故障的风险。第三,“加强测试”可能是指“主动”变更后缺乏相关测试,没有及时发现问题或者变更有回落的空间;第四,“不断增加网络投资”可能意味着当前对网络可靠性/健壮性的投资不足。
网络信息技术不可避免的挑战当服务中断时,网络服务的可靠性、及时恢复、自愈、灾难预防和故障后备份等。,都充分凸显出来——尤其是在IT和基于云的电信系统过程中,这些问题需要特别注意。传统电信网络的设计思想不同于IT网络。A类电信业务对可靠性和容灾有严格的要求,要求电信网络提供各级别的可靠性和容灾保护,包括服务器设备、网卡设备、交换设备、交换链路和网关设备,至少提供“1+1”冗余。此外,还需要提供高效的备份和恢复能力以及远程容灾能力。在虚拟层,配置虚拟机的重生和自愈应该提供自动网络调整能力。IT和云的过程可能会有一个和这个思路的磨合过程。从基于IT的机制来看,原有网络资源稀缺,大量服务质量工作可以交给端侧解决。“尽力服务”是网络设计的出发点。互联网遵循“边缘”设计原则,特点是网络传输采用无连接分组交换,高层功能放在网络边缘,按照“尽力而为”原则为用户提供服务。这种设计方法可以使服务负载呈现分布特性。虽然在服务资源不足的情况下,可能会因为放弃服务请求而降低服务水平,但这种“去中心化”在一定程度上分散了大规模阻塞的风险。在电信网络信息化和互联网化的趋势下,如何合理规划网络架构,平衡投资和可靠性是一个需要面对的挑战。
海因里希定律在这里适用。说到网络服务中断,我们需要注意海因里希法则。海因里希定律的意思是,当一个企业有300个隐患或违规行为时,很大概率会有29个轻伤或失败,再有一个重伤或死亡。对于企业安全管理或者服务安全管理来说,这个规律是一样的,就是一个重大事故的背后,必然有29个小事故,300个潜在隐患。事实上,在快速发展的网络经济中,运营商的业务发展和网络运维也面临着快速迭代的问题,而这些变化中的隐患往往被发展的压力所掩盖。海因里希定律指出,在所有事故中,“未遂事故”虽然没有造成巨大损失,但其原因和发展过程与重大事故一致。如果没有意外打断“险些”的发展,那么很有可能出现重大意外。因此,有必要对“未遂事故”进行深入研究,探讨其原因和发展规律,进而采取相应措施消除事故原因或中断事故发展进程,以达到控制和预防事故的目的。
根据海因里希定律,在类似事故中,“有惊无险”和轻伤的概率远大于重伤的概率。关注和研究“未遂事件”是控制重特大事故发生的重要手段,需要在快速迭代和彻底分析“未遂事件”之间找到平衡。
很多潜在的问题值得关注。从需求的角度,我们必须了解运营商面临的情况:网络故障是不可避免的。其中最重要的原因是业务的变化和发展导致网络调整频繁,在这样的环境下组网需求变化很快。与此同时,云化和虚拟化给网络带来了更多的复杂性。随着NFV、切片和微服务技术的引入,网络的管理变得更加复杂,管理对象的增加使得变更操作更加频繁。运营商在如此复杂的环境下进行大量的变更,因此在制定计划时很难遍历所有的业务和服务场景,更难以准确衡量功能性或非功能性需求。这种复杂性给实施变更的人带来了更多出错的可能性,很大比例的网络事故都是由变更过程中的人为失误造成的。而所谓的专家,或者有经验的网络人员,就是在处理这些故障和事故中不断成长起来的。电信运营涉及的环节和设备多,复杂性高。一旦运行中的某个环节或设备出现问题,就会对整个通信网络系统产生严重影响,造成通信网络节点的不平衡。因此,在电信网络的运维中,全网的概念非常重要。
在大多数情况下,由于服务和业务的高可用性设计,用户不一定对网络调整过程中出现的故障有直观的感受。比如服务器出现问题,集群中的其他服务器会接管业务;当传输中断时,可以智能地将业务承载调度到备用传输系统;即使业务平台出现问题,也可以通过调度将业务承载到容灾环境中。更重要的是,运营商有完善的服务热线等沟通手段,在用户服务质量下降或服务短时间中断时,也能通过有效沟通缓解用户的焦虑和不满。
更可怕的是,当故障发生在网络核心时,运营商无法像处理边缘故障那样解耦;或者当业务的接管机制出现问题时,无法将业务的处理切换到正常网元;甚至还有类似加拿大的案例,业务中断后形成“业务风暴”——运营商的“规模”会给这些场景下的故障恢复带来更多挑战。
值得注意的是,“可用性悖论”也需要考虑。随着网络管理的智能化发展,更多的是通过专业系统开发,网元的底层操作会被封装。当网络状况良好时,网络管理系统可用且可见;当网络出现故障时,网络管理系统可能会因为网络阻塞或网元不可达而无法继续有效运行,进而无法对网络进行必要的配置使其恢复正常。此时,操作和维护人员可能需要绕过网络管理系统进行相对低级的故障排除操作。这对运营商的复杂性、效率和体验提出了新的挑战。
此外,新的安全风险也是运营商在IT和互联网化过程中需要面对的新问题——而这是一个不确定性很强的领域,运营商之前的积累相对薄弱。

2018年6月,阿里云经历了一次技术故障,阿里云最终将其定义为S1级别的事故——核心业务重要功能不可用,影响了部分用户,造成了一定损失。2019年3月3日,阿里云发布公告,称华北2可用区C部分ECS服务器出现IO HANG。在云计算服务市场,无论是AWS、Google Cloud还是Azure服务都受到了数据中心硬件问题、硬盘故障或自动化故障的影响。因此,在云服务架构下,即使故障率低于服务提供商承诺的0.01%,即使故障发生时云服务提供商有相应的容灾方案,业务中断在很多应用场景下仍然会给用户带来巨大的损失。因此,在业务架构集中化的同时,还需要注重业务风险分担。
在这种情况下,边缘计算会有一定的应用。边缘计算改变了只有云是智能不足的“大脑”、“管道”、“末端系统”的局面,让“末端”变成了辅助大脑的“智能神经网络”。这样边缘服务运行在终端设备上,反馈更快,解决了时延问题,让一些行业应用场景成为可能。另一方面,边缘计算将内容和计算能力下沉,提供智能流量调度,将业务本地化,将内容缓存在本地,显著提高解决方案的效率。此外,边缘计算还有丰富的应用场景。边缘计算作为一种开放的IT架构,可以向第三方提供开放接口,引入外部专业力量开发功能和服务。这种模式可能引发商业模式的变革,刺激和促进产业发展。
摘要网络服务中断可以从多个角度反映,有几点值得注意。第一,“连接”在信息通信行业的价值链中仍然占有重要地位,值得运营商重视。虽然在一段时间内,业务拓展似乎是运营商摆脱“管道命运”的重点,但一旦“连接”出了问题,运营商就失去了安身立命的基础。所以要经常用海因里希定律来审视我们自己的问题。
其次,运营商在业务和网络架构演进过程中,要充分理解海因里希定律,通过投入资源、采用快速迭代的方法,在彻底分析“未遂事件”后,找到合理的途径;同时,充分评估服务质量下降和服务中断带来的损失,在演进过程中寻求可靠、经济的路径。
第三,从系统和长期演进的角度观察运营商的IT进程,充分关注云架构和边缘计算带来的机遇。
结束
作者:云青
编辑/排版:沈新竹
审计:沈青
监制:刘启成
我知道你在“看”



