新浪财经

菜鸟、滴滴、B站等系统接连崩溃,宕机原因仍需破局

未来网

关注

 未来网北京12月15日电(记者 张冰清 苏建军)12日晚间“菜鸟App崩了,包裹无法正常显示,也看不到取件码和物流相关信息”。随后#菜鸟取件码呢#话题登上微博热搜。

菜鸟公关部有关负责人向未来网记者表示,“目前正在静默期,无法接受更多采访。一切以公司回复为准,菜鸟App取件码12日傍晚出现了短暂的显示异常,经技术同学快速排查,目前已修复正常。对给大家造成的不便,我们深表歉意。”

对于此次事件发生的原因,该负责人表示,“短暂的技术原因,很快完成了修复。”

今年已有多款热门APP“崩”上热搜

菜鸟并不是今年首个因App崩溃登上热搜的APP,记者盘点互联网大厂系统崩溃事件发现,2023年唯品会滴滴、B站等大厂App接连宕机,共计已有14次之多。

今年3月29日,有多名网友称唯品会崩溃、无法登录。唯品会在官方微博回应称,因系统短时故障,主站“加购”等功能或出现异常。

B站在今年“崩了”两次,3月5日20:20左右,在B站用户活跃的高峰期,许多网友发现B站手机和电脑端均无法访问视频详情页,当晚B站团队在出现故障20分钟后解决了问题。6月28日下午,不少网友反映“B站崩了”,该词条随后登上热搜。受影响的主要是“番剧”和“影视”页面,用户反映“追番一直提示获取视频内容失败”、“显示页面加载失败”、“看番看一半加载不出来”。该问题持续一小时左右,对于此次崩溃原因B站未有具体解释。

10月23日,蚂蚁集团旗下在线文档编辑与协同工具语雀,经历了将近8个小时的服务器宕机故障,导致在线文档和官网无法打开。

今年双十一后首日,淘宝、闲鱼、钉钉、阿里云盘、饿了么、天猫精灵、菜鸟、夸克、语雀等多个阿里系App出现无法访问或服务异常的情况,“XX崩了”快速冲上微博热搜榜。

11月27日,多地用户反馈滴滴出行App无法使用,出现了地图无法加载,打不到车,在寒风中锁不上单车等情况,故障时间长达12小时。

12月3日晚,腾讯视频App出现“首页内容无法加载内容”、“VIP用户无法观看会员视频”等情况,相关话题随即成为热搜爆词。

以及12月12日晚间,有不少网友反映“菜鸟App崩了,包裹无法正常显示,也看不到取件码和物流相关信息”。

系统故障、人员优化、云服务技术故障等原因引发宕机

宕机事件似乎今年特别多。事故原因却并非每家都愿意对外公布。据专业人士表示,硬件系统故障、人员优化、云服务技术故障等是可能引发宕机的原因。

据媒体报道,6月5日,唯品会发布《关于329机房宕机故障处理公告》。公告称,3月29日(00:14-12:01),南沙IDC冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。此次事故影响时间持续12个小时,导致业绩损失超亿元,影响客户达800万,判定为P0级故障。

唯品会称,此次事故暴露出容灾应急预案和风险防范措施不到位,决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职作相应处理。

有业内人士表示,由于系统原因崩溃给企业带来巨大损失,随着行业技术的逐渐成熟,配有标准容灾机制,面对类似冷冻系统等可能存在灾情应急等不可抗力因素是可以有效避免的,但这不同于人员优化造成的运维上下游对接不足或技术原因。

某上市科技企业硬件端产品经理向未来网记者表示,类似这样比较大的技术事故在这种体量的公司内是极不容易出现的,但是一旦出现就会影响很多人的日常生活,如出行、办公等,大家的关注度会比平时高。出现崩溃问题大多发生在自身算法、硬件,或自身技术团队层面。

自身技术团队原因曾在B站技术团队官方账号“哔哩哔哩技术”发布技术解析长文《2021.07.13 我们是这样崩的》中有所提及:运维团队做项目有个弊端,开发完成自测没问题后就开始灰度上线,没有专业的测试团队介入,“此组件太过核心,需要引入基础组件测试团队,对SLB输入参数做完整的异常测试。”

“多多少少跟今年各个大厂的人员调整有关。”据上述产品经理透露,更多的还是运维团队上下游的配合上可能出现了问题,如今各大互联网平台基础架构层已经很成熟,存量市场下,业务并发量不会暴涨,在团队稳定的前提下,类似问题理应不会频繁出现。

但也有业内人士质疑因技术操作失误造成App故障。

以11月27日滴滴出行App崩溃为例,对于事故原因的官方回应是“底层系统软件发生故障”。而有网友在论坛讨论称,“一个规模非常大的K8s集群进行在线热升级,因为某些原因,所有Pod(容器)被kill,而K8s的元数据已经被新版本K8s修改,无法回滚,因此恢复时间拉得很长。”

云猿生数据创始人兼CEO、前阿里云数据库总经理曹伟在其个人公众号发文解读称,该说法并非毫无依据。曹伟表示,滴滴团队近两个月正将公司内部的K8s从1.12版本升级到1.20,两个版本间存在相当大差距。K8s官方推荐的方法是沿着一个个版本升上去。但滴滴团队认为多次升级风险更高,采取了跨越八个版本直接升级策略。曹伟认为该策略理论上可行,但中间可能遭遇到意外因素,如运维误操作,才导致了最终的大规模故障。

体制机制仍需不断完善

面对相同的崩溃,各个大厂的回应速度和解决方案并不同。

12月3日当晚,腾讯视频的系统故障,腾讯视频只公布了一则简短的公告回应称:“腾讯视频出现了短暂技术问题,我们正在加紧修复,各项功能在逐步恢复中。”

11月27日晚间,滴滴App系统发生故障,全国大面积崩溃,服务无法正常使用。滴滴最终发布道歉并说明此次宕机原因是底层系统软件发生故障。滴滴也尽快进行了较为全面的补救措施,在系统恢复后做好各类善后工作,因系统故障导致的订单异常都会统一处理,并同时发放10元优惠券。

相较之下,有些大厂则是只修复bug,不做其他回应,面对用户的吐槽,也并没有进行实质性的赔偿。上述产品经理接受未来网记者采访时表示,用户要求高,企业才能高质量发展,何况用户目前的要求并不高,正常使用App是基本诉求。互联网行业进入存量市场,就是要不断优化自身技术,同时提高抗风险机制,在重点岗位配备专人,减少人才流失。

互联网、大数据、云计算、人工智能、区块链……数字经济,正日益融入经济社会发展各领域全过程,成为人们日常生活密不可分的一部分。头部互联网企业作为其中重要的一环,提供的数字公共产品和平台,在某种程度上已经具备公共基础设施属性。

“数字经济时代面临数据确权、数据流通、数据安全等诸多新问题,这些问题归根结底源于体制机制的不尽完善。”中国电子信息产业发展研究院院长张立曾在接受媒体采访时表示。

事实上,国家层面对于此类风险也早有关注。《网络安全法》第十条规定,建设、运营网络或者通过网络提供服务,应当依照法律、行政法规的规定和国家标准的强制性要求,采取技术措施和其他必要措施,保障网络安全、稳定运行,有效应对网络安全事件,防范网络违法犯罪活动,维护网络数据的完整性、保密性和可用性。

第二十五条规定,网络运营者应当制定网络安全事件应急预案,及时处置系统漏洞、计算机病毒、网络攻击、网络侵入等安全风险;在发生危害网络安全的事件时,立即启动应急预案,采取相应的补救措施,并按照规定向有关主管部门报告。

加载中...