Am Mittwoch Vormittag hatten Kunden Verbindungsprobleme, die in hohen Verzögerungen, Paketverlusten und Timeouts beim Zugriff auf Azure Cloud-Ressourcen resultierten. Microsoft gab anfänglich eine Netzwerkänderung als Grund für den Ausfall an und korrigierte diesen, um den Fehler zu beheben. Ein vorläufiger Nachuntersuchungsbericht von Microsoft liefert nun weitere Einzelheiten.
Ein geplanter Wechsel an einem WAN-Router löste den Vorfall aus. Gemäss den Anweisungen des Herstellers aus Redmond wurde eine IP-Adresse auf dem Router geändert, was zu Nachrichten an alle Router im WAN führte. Als Ergebnis davon begannen die Control Plane-Geräte, neue Weiterleitungsinformationen (Adjacency und Forwarding Tables) zu berechnen. Microsoft spezifiziert nicht, ob es sich um reguläre BGP-Updates handelte.
Probleme beim cloudbasierten Microsoft365. /


Während dieser Neukalkulation konnten die Router die übermittelten Pakete nicht korrekt weiterleiten.
Der vorläufige Report gibt noch keine Auskunft darüber, ob es sich nur um ein Problem wegen hohen Verkehrsaufkommens oder ein fehlerhaftes Routing handelte.
Der Befehl, der das Problem verursacht hat, reagierte verschieden auf verschiedene Router. Er wurde auf der Routerplattform ausgeführt, ohne dass er den vollständigen Prüfprozess durchlaufen hatte, was ein klassischer Fehler infolge mangelnder Kontrolle der Netzwerkautomatisierung war. Nicht nur der Nord/Süd-Verkehr zwischen Clients und Azure wurde beeinträchtigt, sondern auch die Verbindungen zwischen den Azure-Regionen und ExpressRoute.
Microsofts Reaktion auf den Ausfall war bemerkenswert. Innerhalb von sieben Minuten wurden DNS- und WAN-Fehler erkannt und es wurde eine Überprüfung der vorher durchgeführten Änderungen durchgeführt, wie
heise.de berichtet. Demnach begann etwa eine Stunde später der automatisierte Wiederherstellungsprozess im Netzwerk. Der letzte Netzwerkknoten wurde um 10.35 Uhr wieder eingeschaltet, es gab aber bis 13:43 Uhr Paketverluste, notierte heide.de. Viele Router mussten manuell neu gestartet werden, was treu dem Motto «Reboot tut gut» geschah.
Der abschliessende Bericht über den Vorfall muss spätestens nach vierzehn Tagen nach dessen Eintritt veröffentlicht werden.