10月22日,据外媒报道,亚马逊公司声誉当地时间周一遭受重创,其持续约15小时的系统故障导致数百家企业运营中断,受影响公司涵盖苹果公司、麦当劳公司及Epic Games公司等。
此次事件被部分分析师称为亚马逊自2021年以来最严重的故障,其再次提醒了人们过度依赖少数几家云服务商提供关键计算和互联网服务的风险。故障直指云计算的核心理念??由顶尖工程师组成的集中化运营团队,能比企业自有团队更高效地保障服务器运行??正面临严峻考验。
此次故障发生在亚马逊云服务(AWS)业务面临严峻挑战之际。该部门长期以可靠性和责任感作为向客户推销的核心卖点,但销售增长已放缓,且在两大竞争对手微软和谷歌通过销售人工智能工具抢占新业务时,AWS难以跟上步伐。
尽管AWS仍是全球最大云服务商,且并非首次遭遇停机,客户也难以轻易更换供应商,尤其是在当前数据中心容量紧张的背景下。但近年来,部分企业已开始寻求降低对单一云服务商的依赖。
彭博智库分析师阿努拉格?拉纳指出:“此次故障可能促使客户将基础设施分散部署于多云平台,这对谷歌等小型供应商或将构成利好。”但他同时表示,由于跨云迁移难度大且行业整体面临容量限制,亚马逊不太可能因此遭受显著的市场份额损失。
亚马逊实质上开创了大规模计算能力租赁业务,在全球数据中心部署专属定制硬件。其AWS服务涵盖数据存储与数据库管理,支撑着互联网核心架构,占据云市场约三分之一份额。因此一旦发生故障,混乱便会迅速蔓延。
起初亚马逊似乎迅速控制了故障局面。该公司称发现关键数据库服务的数字目录出现故障,导致依赖该数据仓库的软件无法获取信息,引发连锁故障。
当地时间周一清晨,亚马逊宣布已定位并修复了导致其北弗吉尼亚运营中心故障的根本问题,该区域正是AWS最大数据中心集群所在地。然而在修复过程中,工程师发现其他子系统(包括客户启动新租用服务器的关键模块)也受到数据库故障波及。很快,数百家企业和应用程序相继报告系统异常。
故障高峰期,Downdetector监测到数百个网站服务中断,包括金融服务商Venmo和Robinhood Markets Inc.、苹果音乐及电视服务、Zoom通信公司、Salesforce公司和Snowflake公司等软件企业,以及温迪汉堡和麦当劳等餐饮巨头。连亚马逊自家的服务,包括Alexa语音助手和Ring家庭安防系统也未能幸免。
数小时内,AWS在其服务健康仪表盘上发布了大量技术术语更新,向客户保证恢复工作正在进行。最终,亚马逊宣布,截至当地时间下午6点左右(即故障发生约15小时后),所有云服务已“恢复正常运行”。
2021年,亚马逊也曾耗费数小时才修复一次大范围故障,当时迪士尼乐园、奈飞视频等均受影响。当月晚些时候,这家云服务商又发生了一次规模较小的故障。











