来源:微博@奥卡姆剃刀
(资料图片)
昨天下午,广东电信网络出现大面积故障,影响人数至少百万起,持续时间三个多小时。
按照电信部门规范性文件,固定电话或移动电话通信阻断超过10万户*小时,就属于重大事故。
很明显,昨天广东电信的事故就是重大事故,这一点毫无疑问。
在全球范围内,电信网络的重大事故并不罕见。例如自2018年以来,日本四大运营商相继发生重大事故,无一幸免。
软银事故造成3,000万移动用户断网,NTT割接失败导致大量用户断网,去年7月KDDI更换骨干路由器失败,全网故障超过60个小时,二个月后乐天又崩了。
中国三大电信运营商运营的网络规模非常巨大,例如中国电信的客户数量是美国人口的总和,中国移动的用户数量是美国加上欧洲人口的总和。
中国三大运营商建立的全球巨无霸网络,出现重大故障的次数是极少的,总体上应该给予高度肯定。
电信网络故障可笼统分为接入网故障和核心网故障,昨天发生的应该是核心网故障。核心网牵一发而动全身,排除故障是很困难的,昨天广东电信排除故障只用了4个小时,相对日本KDDI的60个小时来说,这个效率也值得肯定。
故障原因是什么?官方并没有给出说法,其实也无法现在给出,通常要经过7天的多方研判,各方签字画押明确责任后才能公布。
这种重大故障有两大原因,一是设备事故,二是运营事故。
电信运营商需要采购华为、中兴、思科等很多设备制造厂商的设备,如果是这些设备出故障,那些设备制造商应该负主要责任。
如果设备本身没问题,是运营商员工进行了错误的管理、配置和操控,导致了事故的发生,那就是运营商负主要责任。
例如去年7月发生的日本KDDI网络中断事故,就是运营商在做核心路由器割接的时候,没有设置必要的热备份,旧路由断开了,新路由也没起作用,然后就崩了。
这就好比是做心脏移植手术时,没有搞体外循环,而是硬生生的割了旧心脏,把新心脏接上后发现不跳,这个错误令人难以想象。
发现问题以后,系统被迫回退,而回退的那个状态又跟故障后发生的新数据变化不匹配了,导致路由参数紊乱,最终导致3,915万人断网60个小时。
未来一周,广东电信会汇集相关厂家研讨事故原因,固定证据,明确事故责任,形成法律文书。
在这期间,记者也甭给广东电信打电话了,广东电信员工大道消息肯定没有,小道消息也不敢说。
7天后(或长或短不等),广东电信可能会开个发布会,应该有三项内容。
一是事故原因,这项内容重点要听是设备故障还是运营故障,如果是设备故障,按惯例也是不会点名的,毕竟都是国际大厂,还得长期合作,不能公开打脸。
二是相关人员处分,即使是设备故障,广东电信相关人员也有着不可推卸的责任,以前花巨资建设的灾备方案为什么没有起效?
三是赔偿方案,断网期间用户预交的费用应该赔付,还应该略多,但并没有惩罚性赔偿,因为这不是有意伤害,而是双方都不乐见的事故。
在中国电信业运营史上,这场事故是非常罕见的,说明了在工作成绩报告中所提到的各种热备份冷切换等灾备措施,在关键时候未必能用得上,应该举一反三,深刻自查,全行业都引以为戒。
Copyright 2015-2022 北冰洋晨报网 版权所有 备案号:沪ICP备2020036824号-3 联系邮箱:562 66 29@qq.com