AWS将周二的宕机归咎于一个打印错误

2021-07-16 20:19:40

导读亚马逊网络服务公司(AmazonWe bServices)今天早些时候表示，它本周早些时候的中断，影响主要网站和应用程序的原因是人为错误。包括Netflix

亚马逊网络服务公司(AmazonWe bServices)今天早些时候表示，它本周早些时候的中断，影响主要网站和应用程序的原因是人为错误。

包括Netflix、Reddit和美联社在内的网站在周二挣扎了几个小时，这都是因为一个简单的错误。

该公司在一条在线信息中写道：“虽然我们对亚马逊S3的长期可用性记录感到自豪，但我们知道这项服务对我们的客户、他们的应用程序和最终用户以及他们的业务有多重要。” 「我们会尽我们所能从这次活动中吸取教训，并利用它进一步改善我们的服务。」

周二上午，AWS在其服务健康仪表板上报告说，它的S3，即简单存储服务，在其位于弗吉尼亚州北部的数据中心有问题。

这一问题甚至影响到AWS仪表板，直到下午5时左右才得到澄清。在那天。

现在，AWS正在解释发生了什么。

该公司指出：“亚马逊简单存储服务(S3)团队正在调试一个问题，导致S3计费系统的进度比预期的要慢。” “下午12时37分一个授权的S3团队成员使用一个已建立的Playbook执行了一个命令，该命令旨在为S3计费过程使用的S3子系统之一删除少量服务器。

消息补充说：“不幸的是，命令的一个输入输入错误，并且删除了一组比预期的更大的服务器。”

ZK Research的分析师宙斯·凯拉瓦拉（宙斯·凯拉瓦拉）表示，如此重大的问题是由人为错误引起的，这并不奇怪。

他说：“我的研究表明，37%的IT中断是人为失误造成的。 “这很可怕，而且表明，尽管技术进步如此之多，我们仍然主要依靠手工操作。这是一个更好的自动化和机器学习可以帮助的例子。

AWS在其今天的在线信息中指出，它的工程师已经从周二的停电中了解到，并正在做出改变，以避免再次发生。

该公司解释说：“虽然取消产能是一个关键的操作实践，但在这种情况下，所使用的工具允许太多的产能被太快地移除。” “我们修改了这一工具，以更慢地去除能力，并增加了保障措施，以防止能力被移除，因为它将使任何子系统低于其最低要求的能力水平。

根据AWS，这应该防止不正确的输入触发另一次中断。

该公司还指出，工程师正在审核其他操作工具，以确保他们有类似的安全检查。

「我们亦会作出更改，以改善关键S3子系统的恢复时间。」「我们采用多种技术，使我们的服务能迅速从任何故障中恢复。」

Moor Insights&；Strategy的分析师帕特里克？莫海德(Patrick Moorhead)表示，他认为这一事件在短期内会给AWS造成一种阴影。

他说：“很难想象一个人在一个命令上的一个错误会导致数百万用户的死亡。” “人们应该对AWS有更多的期待... 这一事件将使企业三思而后行，将某些工作负载和应用程序转移到公有云，并激励它们密切关注私有云。

就他而言，Kerravala表示，他预计云计算竞争对手谷歌(Google)和微软(Micros of t)将抓住这一AWS事件，并试图以他们的方式推动任何失去的业务。

免责声明：本文由用户上传，如有侵权请联系删除！

环球阳光网