当前位置:首页 > 话题广场 > 攻略专题 > 最新攻略

【微信系统维护要多久】微信系统不会崩溃的秘密

本报记者林晓宁北京报道

为什么微信没有崩溃?

12亿中国人都在使用微信,但很少有人想过这个问题。事实上,微信也在崩溃的边缘徘徊,腾讯基础设施运营和管理支持中心主任邹方明,现在还记得2014年除夕,人们刚学会发微信新年视频,交通直接爆炸,系统崩溃的边缘,公司上下所有人的压力都集中在他身上,等待他做出决定。他说那是他最痛苦的时刻。

到目前为止,即使在微信使用率最高的时刻(如除夕、春节、七夕、中秋节、情人节等),腾讯团队也会提前几个月准备资源。几年前的旺季,负责腾讯红包系统运维的肖攀甚至崇拜QQ牛仔,就像崇拜佛祖一样,希望系统不要崩溃。(莎士比亚,坦普林)。

现在他们积累了确保系统不崩溃的方法论。

腾讯十年来一直保持着微信系统不崩溃的故事,是一个在慌乱中平稳增长的故事,是一个没有技术系统的故事,也是国民级用户产品的技术秘密。腾讯科技团队为经济观察提供了这些故事、系统构建、使用技术、运营中积累的经验教训以及对其他公司的参考。

濒临崩溃的瞬间

是一刀切关闭系统,还是继续寻找漏洞?邹方明必须立即做出判断。

他是腾讯的老人,2006年进入腾讯,负责技术,与QQ建立了微信聊天照片、视频系统。但是,当2014年除夕微信流量爆炸,濒临崩溃时,他仍然承受不了这种压力。“系统全方位崩溃,流量也爆发,前端系统像洪水一样,后端系统更脆弱,接连击倒了三四个系统和平台,不仅我们的平台,基本存储的其他部门也倒下了。

用户方面反映的感觉是,用户在朋友圈里发送了视频,但周围的朋友一个也没看到。

由于用户不满不断而来,驱逐令必须立即做出判断。他可以花更多的时间找出问题的原因,彻底解决问题,或者干脆用刀切割,暂时限制视频功能。“哪个方案能最快恢复服务,我后来脑子里模拟了无数次,想不出哪个更快。”

方明站在机房前,面对显示崩溃的电脑,周围的运维看着他,手指放在键盘上等待指示,老板在办公室里什么也没说,产品组需要回复,公司外有数亿用户在等待他的指示。(在美国,美国,英国,英国,英国,英国,英国,英国,英国,英国,英国,英国,英国,英国,英国,英国,英国,英国,英国,

虽然只有10多分钟,但每秒都在遭受折磨。

驱逐令最终决定一律处理。至少屏蔽后再恢复,会给用户继续使用的可能性。否则,不知道找准问题需要多长时间。到目前为止,他不能说自己的选择是最正确的,但那是最快解决问题的选择。

在微信诞生初期,上述瞬间时有发生。2015年,微信红包赞助春晚,除夕红包规模从10万级上升到10亿级,负责运维的肖邦,买了QQ娃娃插了两个香,每当心情不稳定的时候,都会去娃娃面前做礼拜,祈祷永远不要出事。

微信后期形成了成熟的稳定系统,仍然发生了不可预测的事情。2020年2月,腾讯会议每月增长1000倍,腾讯副总裁、腾讯基础设施部总经理肖志立也遇到了难题。他的难题不是技术原因,而是物质资源跟不上。

当时疫情导致运营商的BGP带宽未得到满足,外网IP地址未得到满足,设备供应商无法复工,设备也无法供应。(莎士比亚,《Northern Exposure》)。

肖志立打电话给联想,问仓库能不能供应1万台机器,对方说对不起,工作人员都回家了,疫情期间回不来了。

直到最后,新机器也没有送到。最终,只有通过软件优化,以200度支持以前的单位的技术,才能解决物理资源短缺的难题。大卫亚设(David Assell),Northern Exposure(美国电视新闻)。

从无到有的系统。

12亿用户感受到的是每天使用的微信产品。微信背后只包含摄影平台、音频视频传输平台、红包系统、小视频平台等技术平台,可以访问腾讯内部90%以上的业务。

平台结合在一起,形成了巨大的系统,基本上可以解决已知和未知的问题。这种平台的形成不是一蹴而就的,而是经历了漫长的过程。

摄影系统历史最悠久,从2006年QQ时代开始使用。当年QQ用户突破1000万,登录QQ空间专辑,产品大受欢迎,但技术团队首先面临的问题之一是支撑不住。存储方案、流量方案、索引方案都不能支撑用户需求。整个底层存储已经疯了。“方明来到这个部门的时候正好经历了这样的时代。一些公司最近几年遇到春湾后援或突发事件时突然发现的问题,腾讯也在十多年前遇到了。目前微信、QQ系统的稳定是当年损失惨重积累的经验和教训。

用户对摄影的诉求是扩展腾讯第一代存储系统,衍生TFS后有了专辑系统,但当时没有想到要创建技术平台。(在《圣经》里,《莎士比亚》里,《泰普林》里,《摄影》里)。

不久,新的矛盾爆发了。QQ农场火爆后,每个用户都有很多头像,但现有专辑系统不支持图像高IO(输入/输出)。在这种情况下,方明将相册系统简单地划分为头像系统。

头像系统和专辑系统都是照片,应该分离还是融合?内部当时有点焦急,经过漫长的PK,他们认为还是要融合。融合后,腾讯拥有了第一个技术平台,摄影平台。

与以前分离的系统相比,平台的优点是

本。腾讯其他团队也在做图片服务,他们发现,花了这么多年研发精力,还不如接入到图片平台中,把研发团队的生产力解放出来。

腾讯的其他平台随后逐渐诞生。

2016年,视频平台诞生。2019年,音视频传输平台形成。期间还有红包系统、文件系统、网盘系统,用户最核心的几个场景平台,都由基础架构部搭建完成。

长期以来,腾讯在互联网公司中都以产品力著称,产品的背后,是技术平台的助力。

去年火爆的视频号就是一个典型案例,一年时间,视频号推出了一系列功能,产品人员提出功能需求后,技术人员第二天或者是第三天就能拿出方案,这离不开平台的服务和支撑。“产品有想法时,研发人员能够很快速做出一个模型,尽快做迭代和尝试。”邹方明解释,“能够在60分的基础上去做加法,产品技术团队可以把视角放在用户喜欢玩的玩法上面,放在终端体验的细节上面去,从而从整个研发的长周期中挣脱出来。”

微信诞生10年,背后的系统也有所不同。2016年之前,系统处于性能不足阶段,当时出现问题,无论是漏洞或是代码问题,事件爆发的根本原因是,系统能力不足导致的故障。

2016年之后,系统升级,此后再有热点,或是再有突然事件,对于技术来说,就只是量级提高了,都在系统可以支撑的范围内。

在云时代,系统的支撑能力又有了增加。QQ于2020年完全上云,整体都在云端。微信花了3年时间上云,今年会全部上云。上云的好处是,如果有突发情况要从其他的业务腾挪资源,速度快很多。“否则我们就得先把设备从A业务上下来,再添加到B业务去,再做测试验证,这样时间就长很多。”

微信10年,系统的基础建设主要朝着两个主要的目标在做。“一个是系统的健康性,比如你的熔断能力,自我恢复能力,每年我们都在找方法。另一个方向就是系统单位成本的承载能力。从字面上去解释,因为我们的资源团队、产品团队,都会给出一个固定的成本,这固定的10000台设备,能够支撑100万次请求,还是500万次请求,是每年都在持续优化和迭代的过程。我们会发现,只要你的承载能力强了,就可以把每个危急时刻变成不危急。”邹方明说。

产品不崩的方法论

不过,即使有了系统,也不能完全保证不崩。尤其对于一款12亿人使用的社交产品,任何时刻都有不可控性。

直到现在,腾讯技术团队也不敢打包票说系统完全可控。“推演也是算不过来的,总会算错的。比如说零点全国发红包的人到底有多少?公司发红包的量到底有多少?这个东西说实话不是那么好估了,这个时候我们就会想,有没有保底的大招,来使得这个访问量控制在系统可接受的范围之内,这是非常重要的保底措施。”肖志立说。

崩盘之前,技术部门会提前预演,策划好“剧本”,“剧本”是一种柔性控制,也可以统称为降级。微信用户有时在高峰期会觉得微信消息有延迟,或是朋友圈视频分辨率降低,就是一种降级。

当系统遭遇了远超预估的访问量,就要降级,比如朋友圈视频平时一个视频大概2兆,但高峰时刻可以先砍一刀,把2兆砍成1兆,让更多的人有视频可以看。

在不可预判的业务场景,他们基本上都会以这种方法去应对。“高突发的时候,用户不会用得那么爽,但能让90%用户觉得满意,不至于说突然量超过预期了,然后就立刻不行了”。

肖志立告诉记者,腾讯一直有一个海量之道的技术方法。在突发比较高时,始终有一个漏斗模型,“第一层先去顶住绝大部分的请求,把符合要求的再往下层漏,再往下层交易最重的系统。这样能保证承担的请求是真正需要的请求,而不是把前面所有的请求都打到后面去。”

这个技术方法论被视为腾讯的保底大招,多年来屡试不爽。

如今只道是寻常

2021年春节,腾讯基础架构部在一片祥和中度过。除夕5点半,肖志立把当时留守的几十个兄弟拉到办公室对面的一个餐厅聚餐,吃到6点半,回来守着机器一起度过了除夕夜。

全程没有任何惊险时刻,无惊无喜。

肖志立依旧全程盯着。他每年春节前后都在,春节是最考验微信的时刻,在他们技术内部看来,平时吹什么牛,都不如扛过春晚的流量来的实在。“每次我也在想,我也不去敲代码,也不去做指令,为什么我要在?我能够感觉到就是崩盘了之后,大家都指着我去做‘要人命’的决定,出了故障我才有价值,没出故障我就像一个闲人。”邹方明已经记不清自己守过了多少个春晚,只是觉得很感慨。

在基础架构师的职业生涯里,非常重要的一点,就是在关键时刻做出关键决策。

2018年之后,微信很少再有关键时刻。这一年,微信红包的用户量基本上接近于微信的用户量,之后的增长基本上已经平稳。

肖攀最近两年也没有再拜过QQ公仔了,“都比较有信心。”

现在的系统,已经不再需要大的变动。并且多年春节经验后,团队值班的手段和策略都是已经完备和成熟的,还可以提前预判事件。比如今年,他们预测云年夜饭会提前导致一个小高峰,果然,当晚7点的流量是往年5倍,因为已经提前预测,今年也平稳度过。

对于现在的腾讯技术团队,不再有惊心动魄的故事发生。

架构师的经验教训

微信成立10年,腾讯技术团队也跟着走了10年,他们经历高压,经历崩溃,经历焦虑,到现在视为寻常,一路走来,他们见证微信用户从0涨到12亿用户,与有荣焉。“做技术支撑的团队,一定要有一个好的心态,就是你不在聚光灯下,但是我们心里面知道今天在台上的产品那么成功,跟我们是有很大关系的,自己的内心要足够强大,要相信这一点。”

他们也摸索出了足够多和业务部门沟通的方法。邹方明经常给团队灌输的理念是,除非你有确凿的依据能证明你是对的,不然你就先听业务部门的。

目前,微信背后的技术系统已经接近完善,“没有特别明显的缺陷和短板。”肖志立对此很自信。

不过,技术团队依旧存在焦虑感。其实,腾讯这支技术团队一直很稳定,腾讯内部架构几经大动,技术部门始终没变。他们经历了文字互联网时代、图片互联网时代,到了视频互联网时代,再到现在的实时音视频互联网时代,技术一直在演进,内容越来越丰富,实时性越来越强。这对于背后系统承载能力的要求,对于稳定性、延时的要求,也要比原来高很多,技术永无止境,他们也永远等待攻克下一个难关。

邹方明还在持续学习中。他经常参加线下活动,在一些论坛或峰会上,奔到现场面对面和业界大牛交流取经,“我们不能够关着门做,你必须要到外面找一些可学习的点,业界的大牛很多,他们会有很多比较好的创意和方法论。”“你永远不知道什么时候冒出一个新的东西。”肖志立很感慨,“作为支撑团队,我们得有这种魄力和能力,能够在弹药不够的情况下支持业务团队打胜仗。”

本文经「原本」原创认证,作者经济观察报,访问yuanben.io查询【3P1JE714】获取授权信息。

1.《【微信系统维护要多久】微信系统不会崩溃的秘密》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【微信系统维护要多久】微信系统不会崩溃的秘密》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/gl/2538010.html

上一篇

【十周年武器装扮外观】DNF:勇士对决前职业绝版武器扮相展示,女鬼剑鱼队扮相必须选拔。

下一篇

【2020国庆晚会直播】9月30日15:00直播|《月满节圆梦江》2020年孝感国庆中秋联欢会

【微信系统维护要多久】关于微信后台系统维护的通知

【微信系统维护要多久】关于微信后台系统维护的通知

微信系统维护要多久相关介绍,为了进一步提高在线服务的效率,“珠海公安”微信公众号最近将进行系统维护。在维护期间,微信的户籍业务、户籍预约、出入境业务处理可以通过以下队列(QR)代码过程进行处理。请大家理解和支持。不便之处,请谅解...

【微信系统维护要多久】QQ/微信/微博为什么打开系统维护?昵称头像什么时候可以修改

【微信系统维护要多久】QQ/微信/微博为什么打开系统维护?昵称头像什么时候可以修改

微信系统维护要多久相关介绍,[-海峡网络] 最近QQ、微信、微博等社交平台连昵称头像等个人资料都不能修改,什么时候能恢复?一起看一下吧。 QQ/微信/微博开放系统维护: 腾讯官员昨天宣布,由于系统维护,微信、微信公共平台、QQ、...

【微信系统维护要多久】由于微信系统维护,暂时无法修改。

【微信系统维护要多久】由于微信系统维护,暂时无法修改。

微信系统维护要多久相关介绍,[-海峡网络] 微信系统维护保留修改简介。也就是说,最近你的微信头像、昵称、个性签名都不能修改。要等11月恢复。希望能帮助大家。 微信系统维护怎么样? 微信队昨晚通过官方微信号“微信派”最近宣布,将实...