发生掉线,在这期间内容交付网络没办法完成DNS请求。没发生什么大事,但是值得列入该榜单,因为它涉及到全球最大的也是运行时间最长的云。
2015年7月1日 亚马逊Web服务(AWS)出现大规模宕机情况,宕机维持的时间超过了40秒。Slack、Asana、Netflix、Pinterest等多款APP、以及多家使用AWS服务的网站出现无响应的情况。
对此不少网友笑称“都是闰秒惹的祸!”。也有网友怀疑是“苹果音乐服务”导致的。此外,还有用户在Hacker News网站上撰文称是由于亚马逊的一个EC2服务器引起的。
2015年9月,亚马逊自动化基础设施过程中断,造成AWS平台宕机。从简单网络中断级联反应成大面积服务掉线,亚马逊经历了传统内部数据中心才会经历的那种断网——尽管它有非常先进和集成的云平台。
亚马逊的网络中断影响到其一部分DynamoDB云数据库的存储服务器。此事发生时,一些存储服务器还在请求其成员资格数据。于是,断线造成了检索和传输超时,这些服务器没有办法获得自己的成员资格数据,自动退出了服务。
当那些没有办法获得请求的服务器开始重新尝试请求的时候,DynamoDB超时问题便引发了更大面积的断网。如此,恶性循环产生,亚马逊客户有5个小时没办法使用AWS。
2015年9月20日亚马逊AWS一个数据中心遭遇停电事故,影响了Netflix,Tinder,Airbnb等应用程序的在线服务,以及Reddit和IMDB服务中断。
此次服务中断归咎于其在北弗吉尼亚的us-east-1数据中心软件的问题,而其受一定的影响的客户大多是本土的客户。20日早上3点停电后不久,一共24个应用和服务报告出现一些明显的异常问题,其中有10个处于完全“服务中断”模式。
2016年3月11日,美国当地时间2点20分钟左右,电商巨头亚马逊官方网站发生宕机事故,时间长达20分钟,这次事故不仅导致亚马逊电子商务主网站无法访问,而且也波及到了亚马逊的其他服务,这其中就包括了全球最强的亚马逊云计算服务以及一些数字内容服务等。
这对于亚马逊来说是一个相当巨大的事故,并且这一事故将造成巨大的经济损失。作为实力及用户数量均为全球第一的亚马逊而言,云服务事故不仅是经济损失那么简单,也给追赶者带来了赶超的希望。
2016年6月悉尼遭遇风暴,AWS在该地区的设施停电,很多EC2实例以及为一些知名公司托管关键负载的EBS卷接连出现故障。
在那个周末,澳大利亚AWS可用区域的网站和在线个小时,使得从银行服务到披萨送货都出现了问题。
2017年2月28号,号称亚马逊AWS最稳定的云存储服务S3出现“超高错误率”的宕机事件。
最终,AWS给出了确切的解释:一名程序员在调试系统的时候,运行了一条原本打算删除少量服务器的脚本,结果输错了一个字母,导致大量服务器被删。被错误移除的服务其中运行着两套S3的子系统,因此导致S3异常工作,S3 API处于不可用状态。
由于S3负责存储文件,为AWS体系中的核心组成部分,这导致北弗吉尼亚日(美国东一)服务区中,依赖于S3存储服务的其他AWS的S3 控制台、Amazon弹性计算云(简称EC2)新实例启动、Amazon弹性块存储(简称EBS)分卷(限于需要读取S3快照的数据)以及AWS Lambda均受到影响。
为了修复这个错误,亚马逊不得不重启总系统,在此之前已经几年都没有重启过了,最后导致了震惊全球的Amazon S3宕机4个小时事件。
2018年3月,亚马逊Alexa智能家居出现了区域性失灵,用户在家中唤醒亚马逊Echo系列新产品时,Alexa会让用户重试并报告找不到服务器。
Alexa这一故障源于亚马逊AWS的网络服务出现了问题,不仅是Alexa,其他依赖AWS作为骨干网的应用在当天也受到了影响,这中间还包括软件研发企业Atlassian,云通讯公司Twilio等。
亚马逊的一位发言人表示,这可能跟弗吉尼亚州AWS的一个冗余互联网连接点断电有关。在后续的故障确认中,AWS表示已经引起了美东1区的多个数据中心故障。同时,数据包的丢失导致美国东部地区的一些AWS Direct Connect客户服务受一定的影响。也影响到了来自弗吉尼亚州阿什本的Equinix DC1 - DC6 & DC10 - DC12和来自弗吉尼亚州雷斯顿的CoreSite VA1 & VA2的Direct Connect连接。
2018年5月31日,因北弗吉尼亚地区的数据中心出现硬件故障,AWS又出现连接问题。在此事故中,AWS的核心EC2服务,Workspaces虚拟桌面服务以及Redshift数据仓库服务均受到影响。
2018年7月18日消息,亚马逊盛大的购物促销活动Prime Day遭遇了史上最大的尴尬,亚马逊网站和应用出现了重大技术故障,威胁到了其持续36个小时的销售盛宴。
与此同时,亚马逊核心产品AWS云服务也出现了中断。客户登录AWS管理控制台时,将收到一条带有狗图片的错误消息,消费者Prime Day在亚马逊网站上看到带有狗的图片类似。
AWS故障在声明中表示:“客户使用帐户登录时遇到间歇性错误,无法访问AWS管理控制台。”管理控制台是客户控制他们从Web使用AWS资源的方式的入口,该功能发生故障,客户将没办法实现AWS资源的调配。
该故障持续了将近6小时,AWS发言人表示,间歇性的AWS管理控制台问题,并未对亚马逊的消费者业务产生任何有意义的影响,AWS和Prime Day问题没有关联。
2018年11月23日亚马逊网络服务(AWS)的核心服务器在韩国全国发生中断,导致两个主要的加密货币在线交易平台停止运作。AWS是全球普遍的使用的云服务之一,受到内部核心服务器故障的影响,导致主要的数字资产交易平台Upbit和Coinone戛然而止。据外国媒体报道,几个主要的电子商务中心在大约一个小时内也无法访问。
AWS表示“在太平洋标准时间下午3点19分到4点43分之间,亚太服务器错误率上升,但问题已得到解决,服务器正常运作。”亚马逊的声明细节也证实了首尔网络受到中断影响最大。Upbit平台在停电后发布了几份声明,并为无法提前告知用户突然停机而道歉。 Coinone平台还宣布进入维护模式。
2019年6月1日晚,AWS北京区域CN-NORTH-1地区的隔夜道路施工中有几处光缆被切断,导致可用区无法链接Internet,进而引发所有可用区中新的实例无法启动的故障,包括EC2 API启用故障。因而EC2 API在整个CN-North-1区域都不可用。目前维修团队已经找到了具体的断点所在,正在尽力恢复过程中。
业内人士指出,这是一个北京区域一个可用区的光纤被市政施工挖断,被挖断不止一处。EC2 API接口部分正好在被挖断的那个可用区,所以不能启动新的实例。遭遇这样的事情,也说明了市政的施工队总是那么猝不及防。
以上内容信息整理自:新浪、搜狐、腾讯新闻等相关网站、信息平台、公开新闻报道。