Storing in Azure-cloud door fout bij uitbreiding

    06-08-2012

    Mike Neil, general manager van Windows Azure, heeft in een blog uitgelegd waarom Europese klanten op 26 juli ruim twee uur last hadden van een verstoring in de cloud computing-dienst van Microsoft. Oorzaak is een fout bij de uitbreiding van de servercapaciteit.

    In de Azure-cloud zit een beveiligingsmechanisme ingebouwd dat een limiet stelt op het aantal netwerkconnecties dat de netwerkapparatuur in het Azure-datacenter aan kan gaan. Dit mechanisme is aangebracht om te voorkomen dat de netwerkapparatuur op hol slaat, maar deze beperking zorgde er ook voor dat na de uitbreiding van de Azure-cloud in zijn Ierse of Amsterdamse cloud de boel twee uur op zwart ging. De beheerders waren namelijk vergeten om de limiet op de connecties in de netwerkapparatuur op te hogen zodat na de uitbreiding van de servercapaciteit ook de nieuwe hardware goed bediend kon worden.

    Flinke impact
    Het beveiligingsmechanisme deed zijn werk toen het nieuwe serverpark online kwam en genereerde netwerkmanagement berichten naar beheerders dat de connectielimiet bereikt was. De daaruit voortvloeiende toename van het netwerkverkeer door deze berichtenstroom triggerde andere bugs in de netwerkapparatuur waardoor het CPU-gebruik van een aantal servers in het cluster opliep tot 100 procent. Dit had gedurende twee uur een flinke impact op de dienstverlening van Windows Azure in de regio Europa.

    Het was niet de eerste keer dat Windows Azure op zijn gat ging. Vanwege een fout in de software verslikte de Microsoft-cloud zich dit schrikkeljaar in 29 februari waarna de dienstverlening ruim een dag verstoord was. De onderbrekingen in de Microsoft-cloud zijn niet uniek. Concurrent Amazon Web Services maakte eind juni een flinke verstoring door door een blikseminslag in zijn datacenter in de Amerikaanse staat Noord-Virginia.