Typfout oorzaak grote storing clouddienst

De storing bij clouddienst Amazon S3 die downtime veroorzaakte bij veel Amerikaanse websites en diensten, kwam doordat een medewerker een typfout in een commando maakte. Daardoor haalde de Amazon-medewerker veel meer servers offline dan de bedoeling was.

Het is onbekend wat de typfout precies was, maar de medewerker wilde met het commando een paar servers offline halen voor het proces van in rekening brengen van S3-diensten, meldt Amazon. Door het commando verkeerd in te voeren, gingen het index-subsystem offline. Dat is het systeem dat alle servers indexeert en dus de locatie en metadata bevat van alle S3-servers in de regio. Daardoor werd het onmogelijk om veel servers te gebruiken.

Het herstarten van het index-subsysteem was vrij snel gedaan, maar veel servers hadden inmiddels een backlog van requests en het duurde daardoor langer voordat alles weer normaal functioneerde. De storing vond dinsdagavond Nederlandse tijd plaats.

Door de storing waren veel Amerikaanse websites en diensten geheel of deels onbereikbaar. Veel sites en diensten gebruiken de diensten van Amazon. Onder andere Imgur, Medium, Slack, Yahoo webmail, Quora, Trello en Runkeeper ondervonden gevolgen van de problemen.

Amazon neemt diverse maatregelen om te zorgen dat de storing niet meer zal voorkomen. De belangrijkste daarvan is dat de tool die de medewerker gebruikte om enkele servers offline te halen niet meer in een keer de belangrijkste servers kan beheren. Ook wil Amazon zijn index-subsystem sneller kunnen herstarten.

 

bron: Tweakers / http://www.freepik.com/free-photos-vectors/star – Star vector created by Terdpongvector – Freepik.com