Zurück

Warum die Automatisierung der Problemdiagnose so schwierig ist

by Lingping Gao 7. März 2022

Im Dezember 7th, 2021 hatte Amazon AWS einen größeren Ausfall, der von einer Unterbrechung in North Virginia ausging und sich schnell über das ganze Land ausbreitete. Schon bald waren viele Unternehmensseiten wie Google, Netflix, DoorDash und Southwest Airlines von dem Ausfall betroffen. Auf dem Höhepunkt saßen über 600 Mitarbeiter von AWS in einer Konferenzschaltung, um das Problem zu beheben. Der Ausfall dauerte mehr als 8 Stunden. Denken Sie an die langfristigen geschäftlichen Auswirkungen eines 8-stündigen Ausfalls.

In diesem Monat fuhr AWS mit 2 weiteren Ausfällen fort.

Es stellt sich die Frage: Geht es besser?

Es kann. AWS ist in der Tat eines der am stärksten automatisierten Netzwerke der Welt, aber dieser Ausfall basiert auf der Post-Mortem-Zusammenfassung von AWS, brauchte so lange, um isoliert zu werden, weil der Ausfall selbst den Zugriff auf die automatisierte Diagnosefunktion beeinträchtigte.

In unserer modernen IT-Welt muss die Problemdiagnose automatisiert werden, auch wenn dies wirklich schwierig ist. Eine Umfrage aus dem Jahr 2021 von NetBrain gegenüber Hunderten unserer Kunden ergab, dass 2/3 dieser Netzwerkingenieure keine Automatisierungsfähigkeiten bei der Fehlersuche haben. Was verwenden sie? Die einfache alte Befehlszeilenschnittstellenkonsole. Darunter leiden die Reparaturzeit und längere Ausfälle, zusammen mit viel längerfristigen Auswirkungen auf die Kundenzufriedenheit und -bindung, Bewertungen, Reputation usw.

Für die Unternehmen, die Automatisierung für die Problemdiagnose nutzen wollten, war der Weg sehr holprig. RCA-Tools (Root Cause Analysis) zogen vor 20 Jahren viele Blicke auf sich, aber die Ergebnisse waren alles andere als zufriedenstellend. Die meisten Innovatoren wurden von großen IT-Lösungsanbietern absorbiert und haben einfach weitere Innovationen gestoppt. In jüngerer Zeit versuchen AiOps-Lösungen, diese Lücke mit einem Black-Box-Ansatz zu füllen. Alle AiOps-Lösungen nutzen maschinelles Lernen oder traditionelle statistikbasierte KI-Funktionen, um Grundursachen aus großen Mengen von Maschinendaten zu ermitteln. Aber für die meisten IT-Probleme ist es sehr schwierig, einen Satz sauberer Daten zu bekommen, zusätzlich zu vielen anderen Herausforderungen, einschließlich eines Doktortitels, um ein solches Tool zu bedienen. Als einer von NetBrainDie Kunden von gaben an, als sie über ihre frühen Bemühungen mit AIOps sprachen, sie warteten 6 Monate, bis ihr erstes Problem durch ihr AiOps-Tool diagnostiziert wurde, und das war ein sehr einfaches Problem. (Der Name des Werkzeugs wird hier weggelassen, um Verwirrung zu vermeiden)

Nicht ohne es zu versuchen, bleibt die Automatisierung der Problemdiagnose heute die größte ungelöste IT-Herausforderung. NetBrain begann vor mehr als 10 Jahren mit der Arbeit an diesem Problem, indem er einen Whitebox-Ansatz verwendete, der sich darauf konzentrierte Network Intent. Das sogenannte Intent-based Next-Gen lässt sich mit den meisten ITSM-Tools verbinden und kann so mit der Lösung von Problemen in dem Moment beginnen, in dem sie auftreten. Es kann mehr als 95 % der Netzwerkprobleme beheben, die in IT-Systemen auftreten und sich möglicherweise auf die Geschäftsanwendungen des Unternehmens auswirken, und hilft außerdem, viele wiederkehrende Probleme zu verhindern. In den nächsten Blogs werden wir die Funktionsweise von erklären NetBrain Intent-based automation System für hybride Netze genauer.

Verbunden