乌云消散,红日斜挂天空,夕阳无限美丽,大海恢复了往日的宁静,海滩上的人们仍然像往常一样笑着。刚才完全不知道发生了多大的巨浪。(莎士比亚)。
ITR(问题到解决,公司级流程之一)的处理过程也是如此。当网络激流涌动,ITR问题错综复杂时,一群默默无闻的维护工程师像海燕一样,用定海神针,化险于无,用聪明智慧,拨云见日,如此方能保持网络的风平浪静。
两个1级ITR在春节一道袭来
2014年的春节眼瞅着就要到了,那充满期待的假期计划让忙碌了一年的华为人激动不已。然而还没有等到开始,很多假期计划就宣告破灭。 除夕,我和往常一样来到公司,打开电脑、签入热线。这已经是我连续第二年除夕值班了,年年岁岁花相似,岁岁年年人不同,上一年的除夕问题来自非洲,这一次则来自中东,科威特某局点Whats app的下载速率明显低于竞争对手,要求快速解决。
看似简单的诉求却着实不易,此类问题往往是复杂的网络级问题,需要一遍遍地抓包测试。客户的要求非常严格,每一次拨测,速率只要有一丝波动,就要给出分析报告。这种要求带来的工作量是巨大的,就好比往湖面投掷一把石子,总是难以数清泛起了多少涟漪。于是,时间就从数据包的上传、下载和写报告中无声消失,尽管结论都是乱序和轻微的丢包。
此刻的我,最大的梦想不是家中的团圆饭,而是希望自己变成一个数据包,从网络的这头穿越到那头,在每一个地方留下标记,告诉客户哪里有拥塞和丢包。与此同时,全球各地的问题也在不断传来,我们就像维和部队一样,肩负着华为全球网络的安全责任,这么一想,原本严肃的表情轻松起来,自我安慰带来的自豪感油然而生。
一天的时间不知不觉间过去了,回到家中时,9个月大的女儿已经第二次睡着了,客厅的灯还亮着,餐桌上留着一份早已冷掉的饺子,外面的鞭炮声也已消停,偶尔传进来一些零星的打闹声,准是谁家的孩子还在彻夜玩闹。
大年初二,科威特问题进展不顺,ITR管理升至1级。雪上加霜的是,地球另一端的危地马拉某局点,异系统切换成功率指标出现恶化,多套方案都未能解决,ITR管理也升至1级。真是狂风暴雨啊,P&S史上的第一次1级ITR居然成双入对。
花开两朵,各表一支,先表危地马拉的故事。由于工程搬迁后,网络架构发生变化,终端从华为设备移动到友商设备,发现指标有异常,需要友商配合分析。但AMS经理传递回来的信号非常明确:客户无友商的维保,如果开单求助,就需收取高额的服务费,问题既然由华为触发,那么一切就应该由华为来承担。
友商设备对我们而言就像“黑匣子”,路测队伍只能在看不见的战场厮杀,手机抓包、PS侧抓包,间接推演出友商设备严重拥塞,没有响应华为设备的SGSN Context ACK,建议客户修改T3定时器后,指标逐渐恢复。
话音未落,笔锋一转,此时科威特的速率慢问题也已取得了关键进展,机关派出的三位专家早已空降到位,庞宏超则作为军师在GTAC坐阵,我也从危地马拉问题回归到科威特问题。经过两轮巡检,发现并解决了几十个风险点,直至在F5修改TCP发送/接收窗口后,最后一个问题也顺利解决。
面对同时出现的两个1级ITR,每一步都是如履薄冰,紧张的心提到了嗓子眼,虽然没了春节,但也平息了风暴。
大战欧克拉排名
大数据时代,你的指尖每敲击一下键盘,就自动上传为互联网海量数据的一部分。 Speed Test,你的每一次测试,都会自动上传服务器作为全球排名数据的一部分,这便是业内大名鼎鼎的欧克拉排名。
2015年2月,阿联酋某局点,在PS设备单板替换之后,全球排名出现下降,且多次实施方案后仍然无效,现场的炮声密集传来。由于在巴塞罗那展会上,华为曾给客户承诺过全球TOP 5排名,所以此次事件升为1级ITR。1级ITR就像一个项目,从技术到非技术,从问题处理到邮件通报,事无巨细,每天的攻关通报邮件要抄送三位轮值CEO,我的压力扑面而来。
排名就像逆水行舟,不进则退,不一定是自己退步了,也有可能是其他运营商提升了呢?带着一连串的疑问开始攻关,7*24小时的攻关,对端到端网络展开了一遍遍扫地雷式的排查,可仍像老虎吃天,无从下手。无奈之际展开大量拨测,发现一个“惊人”现象:同一张手机卡,插在安卓手机上,测试速率可以达到100mbps,而插在苹果终端上则只有50mbps。这个发现,好比茫茫大海中的一盏明灯,给了迷茫的航行者一个方向。
可这盏灯的光线太微弱了,它照亮的方向是不是正确的呢,不知道,因为我们发现只有0.2%的乱序报文,且没有引起任何TCP的重传,理论上应该不会对速率造成影响。可现实有时恰恰和所谓的“理论上”是相反的,实践出真知,经过实验室验证和现场海量拨测,我们证实,苹果终端对微量的乱序报文确实更加敏感。
之后我们顺着线索,在IPSEC设备上引入了0.2%的乱序,修改TCP-MSS到1320,苹果终端速率慢的问题迎刃而解。同时对网络进行了大量的优化,提升4G用户的占比,经过一个月的观察,排名逐步上升到全球第一。
功到自然成,风暴平息了。漫长的夜,走出办公室,抬头张望,皓月当空,忍不住想,这个世界究竟为谁而疯狂。
真理掌握在客户手里
2017年1月底,阿曼某局点的网络中,一场风波正在快速弥散,用户反馈在没有使用手机的情况下,话费却在消耗。我们分析后却发现,所有证据都表明,手机的的确确在使用业务,而且大部分业务是在使用一个叫“W”的APP。后来尹长兴进一步发现了W的一个异常行为:在数据还没下载完的时候,W客户端异常RST拆链,然后“偷偷地”继续下载,导致流量消耗过快。
这个突破性的发现让人异常兴奋,满以为这样的证据可以给客户完美的答复,然而一纸报告反而激起了更强烈的反弹,客户根本不认可我们的结论。在“顾客就是上帝”的法则面前,一切解释都是徒劳,所有的不满终于爆发了,ITR管理升级至2级,而这一次的故事恰恰又发生在春节期间。
接下来的事情就是众人皆知的ITR攻关了,可难受之处就在于有力使不上劲,所有我们认为证据十足的分析结果,根本无法取得客户的满意,任你武功再高,就像一拳打在了棉花上。
2月3日深夜,妻子两次紧急电话告知岳父身体不适,我赶回家送岳父直奔医院,次日病情不见好转,需立即手术。看到岳父被推进手术室,前一秒还不知疲倦的我,后一秒就累得躺在手术室门外的椅子上睡着了。好在手术成功,岳父病情稳定,隔了一天,我又返回公司工作。我哪懂什么坚强,我只知道死撑。
继续查找问题,我们发现,“有问题”的手机在插入其他运营商SIM卡后,问题同样存在,说明是手机的软件问题。然后我们把W应用升级到最新版本,问题立即解决,有时候事情就是这么简单,这么直截了当。于是一线工程师再一次兴奋地去和客户交流,心想这次总算水落石出了吧,我也满是欢喜地等待一线捷报。
然而我们的天真又一次被“顾客就是上帝”的天王法则彻底打败了,大部分客户认可了我们的分析结论,但是CMO始终不在其列,以前我只知道真理有时掌握在少数人手里,而这次我才知道“真理”有时掌握在要命人的手里。炮火变得更加猛烈,面对即将到来的巴展,客户威胁要给华为高层投诉,同时还可能罚款。
可是我们坚信分析结论是正确的,既然没办法让客户相信,能不能“曲线救国”,让W应用的官方认可我们的结论,客户不就自然相信了吗。时间一天一天过去了,2月10日,通宵后我正躺在床上休息,手机突然收到捷报邮件,W官方承认版本存在问题,升级之后可以解决。 听到这个消息的时候,我不惊也不喜,因为我终于明白一个道理,太阳不是不照,只是时间未到,该来的必将会来。
一群人是聚会,一群心是团队
桃李春风一杯酒,江湖夜雨十年灯,这世上多的是好酒好景,然而却没有一条好走的江湖路。在GTAC的几年维护生涯中,我已无法数清这样的路走过多少次,每一次都会遇到不同的对手,但每一次也还算能够顺利通过,但我深知常在河边走哪有不湿鞋的道理,也正因如此,这看似平凡的维护路,未来仍需战战兢兢,如履薄冰。
我常常惊叹于黄土高原上的柏树有多么顽强的生命力,因为那是老家的冬天里唯一可见的绿色。我也常常惊叹于华为的战斗力有多么的可怕,因为每一个看似形单影只的工程师背后,都隐藏着无数个集团军。这些集团军,步伐整齐划一,手挺长矛,逢山开路,遇水架桥,摧毁遇到的一切屏障。
GTAC就是这些集团军中的普通一员,因为要处理全球业务,我们有时调侃GTAC的业务范围跟联合国的事务一样广阔;因为GTAC是7*24小时轮流上班工作,内部会戏称为Follow Sun and Moon,像太阳和月亮一样永不停息。
而我,是GTAC工程师团队的普通一员。因为维护工作,曾到过欧洲感受先进文化,也曾去南美感受发展中的热情,还曾到中东的沙漠撒下汗水,通过维护工作与世界网络的万里长城进行联接,这便是我在GTAC的战地日记。
本文来自“华为人”,作者:贺海滨。
1.《华为手机如何查维保,华为手机如何查型号,华为交换机查维保》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《华为手机如何查维保,华为手机如何查型号,华为交换机查维保》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/3210072.html