此次事件反映出支付宝需要提高故障切换能力和应急响应速度,互联网公司普遍存在应急处理能力不足的问题。互联金融体系的运行稳定性并不像之前所说的那么完美。

谢魏/文

5月27日下午5点,拥有近3亿活跃用户的支付宝出现大规模接入故障,全国多个省市的支付宝用户出现无法登录手机电脑、余额错误等问题。至于这次事件的原因,蚂蚁金服的解释并没有得到金融界和互联网界的广泛认可。

蚂蚁金服发给《财经》的官方回应称,出现此问题的原因是杭州某处光缆被市政建设切断,影响了支付宝某主机房的正常运行。当天晚上19点左右,也就是事故发生后两个小时左右,支付宝服务恢复正常。

蚂蚁金服表示,无法准确统计故障期间使用支付宝的具体用户数量。

支付宝,总交易量超过4万亿年,是中国最大的第三方交易平台,约占中国社会总消费的六分之一。失败后,用户普遍担心账户资金的安全,也有用户反应账户余额不同步。

蚂蚁金服回应称,支付宝有完善的技术和措施保障用户的财务安全。支付宝里的任何交易都会同时有多条记录,数据可靠性极高。如果有用户交易不同步,后续会妥善解决。

蚂蚁金服发给《财经》的官方回应也指出,支付宝的系统架构在此次事故中起到了巨大的作用:一方面,并没有因为光缆被切断而影响到所有用户;另一方面,故障机房的流量被紧急切换到其他机房。当夜7点支付宝服务恢复时,剪断的光缆还没修好。

蚂蚁金服的一位高管告诉《财经》,涉及资金的大流量网站很难实时切换,需要安全地将用户数据,尤其是资金数据切换到其他机房,因此切换需要更多的时间。“从技术上讲,恢复速度更快是可能的,而恢复速度更慢的原因是为了确保数据不会丢失。”

蚂蚁金服对于这次事故的内部总结是数据验证比较多,所以丢失数据的时间比较长。对内认为是安全而不美观的备灾实战,就像跳水一样,起跳很好,空里的动作还可以,就是喷水不够好。

《财经》记者了解到,支付宝采用异地双活动的系统架构,确实有很多机房。正因为如此,支付宝杭州机房网络的中断只影响到一个机房,其他机房的业务不受影响。

但这仍然受到外界的质疑。有两个疑点:一是恢复时间长达两小时;第二,是因为资金安全自愿放缓还是支付宝应急方案有漏洞?

某大型国有银行内部人士告诉《财经》,如果银行支付系统瘫痪2小时以上,已经是重大安全事故,很有可能会上报国务院备案。

他向《财经》记者强调,传统金融机构出现此类全国性安全问题的概率很小,因为我行涉及用户资金的重要系统的容灾计划非常完备,一般是“两地三中心”的云备份计划,保证“同城容灾结合异地容灾”,目的是防范重大灾害或战争等极端情况。

上述大型国有银行的内部人士认为,正因为如此,如果支付宝的某个数据中心因为银行系统中的电缆被切断而关闭,那么用户流量和系统就会切换到同一个城市或者异地的其他数据中心。“即使不是即时切换,也不会花太长时间,同城可能更快,也就是用户根本感觉不到延迟。”

这一说法得到了《财经》记者采访的众多电信技术人员的支持。中国电信的一位高级技术人员分析说,服务故障转移机制应该是自动的。按照一定的预设策略,不需要人为干预,业务切换后可以手动重新定义流量疏导模式。

据此人介绍,支付宝的多中心网络架构设计与普通用户接入光缆宽带业务不同,不可能只使用一个区域性的小机房,一根光缆断了,服务就断了。支付宝的机房服务应该有很多路由,不可能只和一个运营商连接,即使只有一个,也一定是多路由接入。"数据路由就像电源,来自不同的变压器,可以在适当的位置."

一位在汤森路透工作的阿里巴巴程序员也告诉《财经》记者,汤森路透自称是全球最大的金融网络,处理全球实时金融数据,并要求即使在自然灾害或战争中也不要停机。他们的机房是这样搭建的:两个不同电信公司的光缆和不同电力公司的电缆从机房的两个方向进入,同一机房的所有系统都实时备份,两个不同城市的机房是为了实时处理同一数据而搭建的。

据某大型国企的网络运维人员介绍,从技术角度来看,支付宝的事故可能是由于其内部应用模块出现了问题。没有经过严格验证的应用统一升级后,意外触发到未知状态,就会出现这样的问题。

上述运维人员还表示,经过他的观察,支付宝DBA紧急恢复了完整的数据,RPO =天,指的是服务恢复后恢复的数据对应的时间点。理想状态是RPO=0,故障应该立即恢复,但需要很大的投入),增量数据恢复应该连续进行2小时左右

根据上述中国电信技术人员的分析,出现这个问题的可能性是支付宝的多个数据中心之间的流量自动切换机制存在问题,只能手动干预。可能还有其他三个原因:第一,支付宝很有可能被攻击;二是支付宝路由配置瘫痪;第三,支付宝的云服务器宕机了,亚马逊也出现了这个问题。号称最先进最安全的阿里巴巴云系统,并没有很好的支持自己的业务。

关于上述相关问题,《财经》记者询问了蚂蚁金服,蚂蚁金服回应称,具体技术分析正在加紧进行,但需要一段时间才能得出结论和判断。

微妙的是,根据蚂蚁金服较早的媒体回应,由于流量迁移到支付宝深圳数据中心时,交换系统也受到光纤断裂的影响,所以需要很长时间才能切换。这与“从技术上讲,他们可以恢复得更快,之所以恢复得更慢,是为了保证不丢失数据”的说法不符。

另一位行业专家表示,此次事件反映出支付宝需要提高故障切换能力和应急响应速度,互联网公司普遍存在应急处理能力不足,互联金融系统的运行稳定性并不像之前声称的那样完善。支付宝大面积瘫痪后,互联网企业运维人员成立微信群讨论此事。

随着云计算和大数据的逐渐普及,以及人们对互联网应用的资产信任越来越重,IT技术领域普遍呼吁互联网公司改变“尽力而为”的服务承诺和网络架构,向传统电信和IT领域高达99.999%的“五个9”安全级别靠拢。

蚂蚁金服表示,支付宝将不断提高容灾切换的速度,希望未来这样的切换能让用户意识不到或者最小化感知。

至于事故造成的具体损失金额,蚂蚁金服表示暂时无法统计。

1.《支付宝瘫痪 支付宝瘫痪2小时 带来的损失暂时无法统计》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《支付宝瘫痪 支付宝瘫痪2小时 带来的损失暂时无法统计》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1764807.html