Zurück

Lehren aus dem massiven AWS-Ausfall von Amazon

by kelly.yue 22. März 2017

Es ist keine Eilmeldung zu sagen, dass Menschen nicht perfekt sind. Viele Unternehmen verlassen sich jedoch auf die unrealistische Erwartung, dass ihre IT-Teams niemals einen Fehler machen werden. Laut der laufenden Forschung des Uptime Institute gerät die IT tatsächlich ins Hintertreffen, wenn es darum geht, die Systeme und Dienste am Laufen zu halten, wobei mehr Ausfälle gemeldet werden, die jeweils länger andauern und größere negative Auswirkungen auf das Geschäft haben. Und die Migration Ihrer IT-Services zu den Cloud-Anbietern ist NICHT die Antwort.

AWS-Ausfall 1

Das 2017 Ausfall von Amazon Web Services (AWS). ist ein perfektes Beispiel. Hysterie entsteht nach jedem größeren Ausfall, und der Druck, der zu diesem Zeitpunkt auf die IT-Teams ausgeübt wird, kann überwältigend sein, um das Problem schnell zu identifizieren und zu beheben. Doch etwas so Alltägliches wie ein Tippfehler kann die Ursache des Problems sein. Ein einfacher menschlicher Fehler, und doch verursachte er weltweit Chaos in den Fortune 2000-Unternehmen.

Im Fall von Amazon passierte genau das, als ein Techniker versuchte, ein Problem mit seinem Abrechnungssystem zu beheben:

„Ein autorisiertes S3-Teammitglied, das eine etabliertes Spielbuch hat einen Befehl ausgeführt, der dazu gedacht war, eine kleine Anzahl von Servern für eines der S3-Subsysteme zu entfernen, die vom S3-Abrechnungsprozess verwendet werden. Bedauerlicherweise, Eine der Eingaben für den Befehl wurde eingegeben fälschlicherweise und es wurde eine größere Gruppe von Servern entfernt als beabsichtigt.“

Wie die meisten menschlichen Fehler hätte auch dieser vermieden werden können, und zwar nicht nur durch etwas aufmerksameres Tippen. Tatsächlich können Änderungen an einzelnen Geräten vorgenommen werden, nur um festzustellen, dass die IT-Dienste, die diese Geräte durchlaufen, unbeabsichtigt beeinträchtigt wurden. In der Netzwerkwelt kann das Problem sehr akut sein. Traditionell erforderte das Netzwerk-Engineering viel manuelle Arbeit, von der Datenerfassung bis zur manuellen Fehlerbehebung. Handarbeit, insbesondere mühsame Handarbeit, führt oft zu menschlichem Versagen. Und selten durchlaufen alle Anwendungen und Dienste, die an geänderten Geräten beteiligt sind, proaktiv eine Qualitätskontrolle, um sicherzustellen, dass sie voll funktionsfähig sind. Im Fall von AWS arbeitete ein Techniker ein etabliertes Playbook durch und machte einen einfachen Tippfehler, aber es hätte leicht sein können, dass die Änderung korrekt vorgenommen wurde, aber sie hatte unbeabsichtigte Folgen für die IT-Services. Es passiert ständig.

At NetBrain, haben wir unser gesamtes Netzwerkproblem-Diagnose-Automatisierungssystem entwickelt, um die mühsame und inkonsistente manuelle Arbeit zu minimieren, indem wir die Netzwerkautomatisierung durch Executable implementieren Runbooks. Und indem wir unser Echtzeitmodell des Netzwerks und die beabsichtigten erwarteten Ergebnisse nutzen, können wir überprüfen, ob die Änderung gut für das Unternehmen war.

Anstatt sich auf traditionelle Bemühungen an der Basis zu verlassen, bei denen Wissen oft auf einem Stück Papier gefunden oder einem Expertenteam isoliert wird, können Netzwerkingenieure ihre bewährten Best-Practice-Prozesse in ausführbare Dateien kodifizieren, die mit Kollegen geteilt werden können, und dann mit minimalem menschlichem Eingriff. Die kraft von intent-based automation geht über die Reduzierung von Fehlern hinaus. Sie verkürzen auch die Fehlerbehebungszeit und verteilen die Arbeitslast fortgeschrittener Aufgaben auf mehrere Teammitglieder. Dies trägt dazu bei, die übermäßige Abhängigkeit von Stammeswissen zu verringern und eine stärkere Kultur der Zusammenarbeit über das Netzwerk, die Sicherheit und die Sicherheit hinweg aufzubauen change management Mannschaften. Es ist ein Mittel, um Wissen und Erfahrung in jeder Organisation zu skalieren.

Die Digitalisierung von Best Practices und die Automatisierung ihrer Ausführung ist der Schlüssel. Wenn AWS etwas Ähnliches wie Executable genutzt hätte Runbooks, es ist durchaus möglich, dass der Ausfall vermieden wurde. In unserer Welt können Netzwerkteams problemlos ausführbare Dateien erstellen, ausführen und freigeben Runbooks. Und mit ihnen können sie Probleme beheben, Netzwerklangsamkeit diagnostizieren, sich proaktiv vor Fehlkonfigurationen schützen und vieles mehr – alles ohne Angst zu haben, dass die Frau mit den dicken Fingern singt.

Lernen Sie mehr über Ausführbare Datei Runbooks und wie Netzwerkingenieure Wissen teilen, manuelle Arbeit reduzieren und das Netzwerk verbessern können.

Verbunden