Zurück

SLAs erfüllen und das Endergebnis verbessern

by kelly.yue 25. März 2019

Neulich hatte ich ein interessantes Gespräch mit einem Freund, in dem er über seine Bedenken hinsichtlich der Einhaltung strenger SLAs sprach, die eingeführt wurden, um die geschäftlichen Anforderungen und die Erwartungen des CIO zu erfüllen. Mein Freund arbeitet für das IT-Outsourcing-Unternehmen, das die Netzwerkinfrastruktur für ein globales Unternehmen verwaltet, und muss mit erheblichen Bußgeldern rechnen, wenn SLAs nicht eingehalten werden. Die SLAs geben spezifische Service-Reaktionszeiten in Bezug auf die Annahme geöffneter Tickets, die Reaktion auf und die Lösung von Netzwerkproblemen an. Das ausgelagerte IT-Team ist auch für die Implementierung von Infrastruktur-Upgrades und -Projekten verantwortlich, ohne ungeplante Ausfallzeiten zu verursachen.

Kann der gleiche alte Ansatz zur Fehlerbehebung die heutigen SLAs erfüllen?
SLAs basieren auf schnellen Durchlaufzeiten, die traditionelle Fehlerbehebungstechniken in Frage stellen. Während die Uhr tickt, müssen Netzwerkingenieure oft eine Hypothese aufstellen, die auf begrenzten Beweisen basiert. Sie verbringen in der Regel viel Zeit mit dem Sammeln und Analysieren von Daten, nur um einen Ausgangspunkt für die Fehlersuche zu finden. Ohne Tools, die den Prozess automatisieren und beschleunigen, ist der Techniker oft gezwungen, zeitaufwändige manuelle Verfahren anzuwenden, z. B. sich bei vielen Geräten anzumelden, bis das Problem isoliert werden kann.

MTTI-GrafikDie tatsächliche Lösung eines Problems macht nur 20 % der Fehlerbehebung aus. Die anderen 80 % finden zunächst heraus, was das Problem verursacht.

Dieselben manuellen Verfahren und Bemühungen zur Fehlerbehebung können auch für Infrastruktur-Upgrades und Projektimplementierungen gelten, insbesondere wenn etwas schief geht. Das Netzwerkteam muss nicht nur komplexe Upgrades ohne die notwendige und teure Testlaborausrüstung testen, sondern auch die Auswirkungen der vorgeschlagenen Änderungen verstehen und wissen, was während des Upgrades schief gehen könnte. Die Fähigkeit, vor dem Upgrade oder der Projektimplementierung verschiedene Szenarien durchspielen zu können, ist von unschätzbarem Wert.

Geschichte aus den Schützengräben: manuelle Fehlerbehebung bei vPC-Konfigurationsproblemen
Während meines Gesprächs mit meinem Freund besprach er die Details eines kürzlich in ihrem Rechenzentrum implementierten Switch-Refresh-Projekts. Sie stellten mehrere Racks mit neuen Cisco Nexus-Switches bereit und konfigurierten virtuelle Portkanäle (vPC). Ein vPC ermöglicht es, dass zwei Links, die mit zwei verschiedenen Nexus-Switches verbunden sind, dem dritten Gerät als ein einziger Portkanal erscheinen. Es bietet viele Vorteile; Einige umfassen die Nutzung der gesamten verfügbaren Uplink-Bandbreite, eine schleifenfreie Topologie und keine blockierten Ports durch das Spanning-Tree-Protokoll.

In der Nacht des Änderungsfensters implementierte das Team die entworfene Lösung, hatte jedoch nur begrenzte Möglichkeiten, die Lösung vor der Implementierung in die Produktionsumgebung zu testen. Das Design umfasste die Konfiguration einer unterschiedlichen vPC-Domänen-ID pro Nexus 9K-Switch-Paar, zahlreiche vPCs und die Konfiguration von Portkanälen für jedes Switch-Paar. Die Umsetzung schien gut zu laufen, und alle gingen für den Abend nach Hause.

Am nächsten Tag wurden sie mit Tickets überflutet. Dinge, die am Tag zuvor noch funktionierten, funktionierten nicht mehr. Obwohl sie wussten, was sich geändert hatte und worauf sie ihre Bemühungen konzentrieren sollten, gab es aufgrund des Ausmaßes der Änderungen, die in der Nacht zuvor vorgenommen wurden, so viele Variablen zu berücksichtigen.

Der manuelle Aufwand, der von den Ingenieuren benötigt wird, um die Reihe von Befehlen für alle Schalter auszuführen, kann Stunden dauern. NetBrain ist in der Lage, den gesamten Fehlerbehebungs-Workflow zu optimieren und die Aufgaben in Sekundenschnelle zu erledigen.

Dies war ein großes Rechenzentrum und erforderte eine Menge manueller Fehlerbehebung, das Einloggen in alle neuen Switches und das Ausführen einer Reihe von Befehlen. Sie entdeckten mehrere Konfigurationsprobleme. Bei einem Nexus-Switch-Paar war nicht dieselbe vPC-Domänen-ID konfiguriert, und bei einem anderen Switch-Paar war ein Konfigurationskonsistenzproblem vom Typ 1 aufgetreten.

vpc mit laufender Konfiguration anzeigen zeigt die laufende Konfiguration für alle virtuellen Portkanäle an. vpc kurz anzeigen zeigt kurze Informationen über den virtuellen Portkanal an, z. B. vPC-Domänen-ID, Peer-Link-Status und Konfigurationskonsistenzprüfungen. vpc-Rolle anzeigen zeigt die vPC-Rolle der Peer-Geräte an. vpc-Konsistenzparameter anzeigen zeigt die Parameter an, die über die Virtual-Port-Channel-Schnittstellen hinweg kompatibel sein müssen. Das Schlüsselwort globale kann verwendet werden, um alle globalen Parameter vom Typ 1 auf beiden Seiten der Peer-Verbindung anzuzeigen. Alle Typ-1-Konfigurationen müssen auf beiden Seiten der vPC-Peer-Verbindung identisch sein, sonst wird sie nicht angezeigt. Zusammenfassung des Hafenkanals anzeigen zeigt Informationen zu den Portkanälen an.

Fehlerbehebung bei vPC-Problemen mit Automatisierung
Aufgrund der Komplexität und Größe des Netzwerks konnte ich erkennen, wie dieses Unternehmen eindeutig von der Automatisierung sowohl bei der Fehlerbehebung als auch bei der Bereitstellung neuer Infrastrukturen profitieren könnte. Dieses eine Aktualisierungsprojekt erforderte viel manuelle Fehlerbehebung und Mühe, um die Vielzahl von Problemen zu identifizieren. NetBrain hätte verwendet werden können, um auf eine Laborumgebung zu verweisen, um die Auswirkungen der vorgeschlagenen Änderungen besser zu testen, und hätte unvorhergesehene Probleme identifizieren können.

NetBrainDie Automatisierungsplattform von bietet Ingenieuren End-to-End-Transparenz über ihre Umgebungen hinweg, indem sie das Netzwerk intelligent erkennt und nutzt Dynamic Maps. Ihr runbook Technologie beschleunigt die Fehlerbehebung, indem Aktionen namens Qapps ausgeführt werden, um Konfigurationsprobleme zu finden, und die runbook Werke von A Dynamic Map. Der manuelle Aufwand, der von den Ingenieuren benötigt wird, um die Reihe von Befehlen für alle Schalter auszuführen, kann Stunden dauern. NetBrain ist in der Lage, den gesamten Fehlerbehebungs-Workflow zu optimieren und die Aufgaben in Sekundenschnelle zu erledigen.

Im Screenshot unten sehen Sie die Dynamic Map des Netzwerks entdeckt und die runbook Wird zum Sammeln von vPC-Konfigurationsinformationen verwendet.

Markieren Sie die vPC-KonfigurationA Dynamic Map ruft automatisch die gesamte vPC-Konfiguration in Sekunden ab und visualisiert sie.

Unten sehen Sie die Ergebnisse eines der ausgeführten CLI-Befehle und wie einfach es ist, zusätzliche CLI-Befehle hinzuzufügen, die Sie für alle Switches ausführen möchten.

CLI abrufenAnstatt CLI-Daten Befehl für Befehl und Switch für Switch zu sammeln, können Sie vPC-Konfigurationsinformationen sofort automatisch sammeln.

Hier werden vPC-Statusergebnisse angezeigt und andere relevante Diagramme können geöffnet werden, um zusätzliche Informationen anzuzeigen.

Karte mit vPC-StatusergebnissenUnd visualisieren Sie die Ergebnisse automatisierter CLI-Befehle im Kontext direkt auf der Karte – mit Ein-Klick-Links zu anderen relevanten Daten.

Zusammenfassung
SLAs werden von Tag zu Tag strenger. Wenn es ein Netzwerkproblem gibt, das diese strengen SLAs bedroht, zählt buchstäblich jede Minute. Dennoch verbringen wir den größten Teil unserer Fehlerbehebungszeit immer noch damit, das Problem „von Hand“ zu identifizieren und einzugrenzen. Es gibt heute eine Automatisierungslösung, die Ihnen einen schnellen Start in die Lösung des Problems ermöglicht, eine Lösung, die die umfassende CLI-Intelligenz liefert, die Sie benötigen – nur in Sekunden statt in Stunden.

 

Möchten Sie herausfinden, wie NetBrain innerhalb Ihrer Infrastruktur genutzt oder angewendet werden können? Warum nicht von einem kostenlosen profitieren Demo selbst sehen? Warum also nicht anfangen, Zeit zu sparen, menschliche Fehler zu eliminieren und vor allem das Endergebnis zu reduzieren?

Sehen Sie sich auch diese verwandten Blogs an:

Verbunden