Automatisierung für den Netzwerkbetrieb

In einem typischen Unternehmen können täglich Tausende IT-Ereignisse auftreten - viele sind dringend, aber alle erfordern manuelle Bearbeitung, was zu längeren Auflösungszeiten führt.

NetBrain wurde entwickelt, um die durchschnittliche Reparaturzeit (MTTR) kontinuierlich zu verkürzen, indem die Automatisierung in drei Phasen während der Reaktion auf Vorfälle angewendet wird:

  1. Ereignisgesteuerte Automatisierung - bevor ein Mensch eingreift… um die erste Reaktionszeit auf Null zu reduzieren
  2. Interaktive Automatisierung - während der aktiven Fehlerbehebung und Lösung… um die Notwendigkeit von Eskalationen zu minimieren
  3. Proaktive Automatisierung - nachdem das Problem behoben wurde ... um zu verhindern, dass diese Probleme erneut auftreten
IT Automatisierung

Ereignisgesteuerte Automatisierung

Eine kritische Phase der Untersuchung von Vorfällen ist die erste Reaktion und Diagnose. Jedes Mal, wenn ein IT-Ereignis eintritt, ist es wichtig zu verstehen, welche Auswirkung es haben wird. In der Regel gibt es eine Reihe allgemeiner Diagnosen, die ein Team zuerst durchführt. Da diese ersten Schritte vorhersehbar sind, sollte jede Untersuchung von IT-Problemen mit „Zero Touch“ oder „triggered automation“ beginnen.

Wofür wird nach dem Auftreten eines IT-Ereignisses Zeit benötigt?

Triggered Automation Benefits

Wie kann Automatisierung helfen?

Beseitigung von Leerlaufzeiten durch ereignisgesteuerter Automatisierung

Durch die Verbindung von NetBrain mit Ihrer ITSM- oder Event Management-Lösung ist es einfach, eine ereignisgesteuerte Diagnoseautomation zu implementieren - um Leerlaufzeiten zu vermeiden, Probleme schneller zu identifizieren und potenzielle Probleme automatisch auszuschließen. Sobald ein Ereignis erkannt wird, bietet NetBrain Automation zwei wesentliche Funktionen:

  1. Abbilden des Problembereichs in einer dynamischen Netzwerkkarte
  2. Sofortiges Ausführen einer Triage-Diagnose.

Durch die Anwendung von „Triggered Automation“ während der Reaktion auf Vorfälle schließt NetBrain die Lücke zwischen der Erkennung eines Fehlers und der tatsächlichen Durchführung der Diagnose.

Sofortiges Abbilden des Problembereichs in einer Karte

Ausgelöst durch ein Ereignis kann NetBrain automatisch eine Karte des relevanten Teils des Netzwerks erstellen. Dies kann eine Sitemap oder ein Pfad eines Anwendungsflusses sein. Dies hilft dabei, die betroffene Netzwerkumgebung zu isolieren, um eine Visualisierung über Router, Switches, Firewalls und Load Balancer hinweg bereitzustellen - selbst für SDN, SD-WAN und öffentliche Cloud. Eine URL dieser dynamischen Karte wird dann an Ihre ITSM- oder Event Management-Lösung zurückgegeben, damit jeder, der das Ereignis untersucht, schnell darauf zugreifen kann.

Automatisierte Diagnose im gesamten Netzwerk

NetBrain bietet Automatisierungsmechanismen, mit denen Unmengen von Daten wie CLI-Ausgaben, Gerätekonfigurationen, Netzwerktelemetrie und andere wichtige Informationen schnell durchsucht werden können. Diese Automatisierung ist vollständig anpassbar, sodass Sie Ihre allgemeinen Fehlerbehebungsverfahren in wiederholbaren Verfahren namens Executable Runbooks organisieren können, die die netzwerkweite Fehlerbehebung erleichtern.

Wenn Sie NetBrain mit Ihrem ITSM oder Ihrer Überwachungslösung verbinden, können Sie Regeln und Bedingungen definieren, die die Ausführung verschiedener Diagnosen für verschiedene Ereignistypen auslösen. Beispielsweise kann ein Ticket für eine langsame Anwendung NetBrain veranlassen, den Anwendungsfluss dynamisch abzubilden und dann ein dreistufiges Runbook auszuführen, das (1) allgemeine CLI-Daten sammelt, (2) eine Integritätsprüfung auf Geräteebene durchführt und (3) den Zustand der Schnittstelle, wie Bandbreitenüberlastung, diagnostiziert.

Triggered Automation

Nerd-Modus

Wie lässt sich NetBrain in meine ITSM- oder Event Management-Tools integrieren?
NetBrain nutzt RESTful APIs für die Integration, sodass jedes Tool mit diesen „Hooks“ sowohl „northbound“ als auch „southbound“ in NetBrain integriert werden kann. Ein häufiger Anwendungsfall besteht darin, die Erstellung einer neuen dynamischen Karte für jedes neue Ereignis auszulösen und anschließend eine Diagnose über das Runbook auszuführen. Das Ergebnis wird entweder direkt als eingebettete Karte oder auch als URL zu NetBrain an Ihr Ereignistool zurückgegeben.
Mit welchen Tools lässt sich NetBrain üblicherweise integrieren?
Übliche Integrationen für NetBrain sind ITSM-Lösungen, wie ServiceNow und BMC Remedy, 24x7-Überwachungslösungen wie SolarWinds, CA Spectrum oder PRTG oder SIEM-Tools wie Splunk. Kunden integrieren ihre Überwachungs- und SIEM-Tools häufig direkt in ihren ITSM. In diesem Fall können sie sich auf ihr ITSM als ein Tool zum Korrelieren von Ereignissen und für das Auslösen der NetBrain Automation verlassen.
Wie viel Programmierung ist erforderlich, um die ereignisgesteuerte Automatisierung zu konfigurieren?
Die ereignisgesteuerte Automatisierung ist relativ einfach und kann normalerweise in wenigen Stunden eingerichtet werden. ServiceNow-Benutzer können die kostenlose App von NetBrain im ServiceNow-App-Store nutzen, um diese Integration in nur zehn Minuten weiter zu optimieren.
Woher weiß NetBrain, was zu automatisieren ist, wenn ein Ereignis auftritt?
Im API-Manager von NetBrain können Sie zwei Arten von Aufgaben definieren, die je nach Ereignistyp ausgelöst werden. Die erste Aufgabe besteht darin, die Erstellung einer dynamischen Karte auszulösen. Die zweite besteht darin, die Ausführung einer Diagnose über das Runbook auszulösen. Da Sie jedes Runbook selbst definieren können, ist diese Automatisierung sehr flexibel.
Welche Arten von Karten kann NetBrain durch einen Trigger erstellen?
Basierend auf einfachen Kriterien innerhalb eines Tickets oder Ereignisses, wie einem Hostnamen oder einer IP-Adresse, gibt es drei gängige Arten von Karten, die NetBrain dynamisch erstellen kann: (1) Karte eines Geräts und seiner verbundenen Nachbarn, (2) Karte eines Pfades zwischen zwei Endpunkte, (3) Karte einer vordokumentierten Site. Diese Parameter können in NetBrain oder in der kostenlosen ServiceNow-app von NetBrain konfiguriert werden.
Welche Arten von Diagnosen kann NetBrain automatisieren?
Die NetBrain-Automatisierung ist äußerst flexibel. Nahezu alle Daten, die NetBrain analysieren soll, können vom System automatisch erfasst werden. Dies erfolgt normalerweise über den automatisierten Zugriff auf die CLI (z. B. show interface zur Diagnose von Schnittstellenfehlern), die API an einen zentralen Controller (z. B. im Fall von SDN oder Public Cloud) oder die API an ein IT-Tool eines Drittanbieters (z. B. Splunk oder SolarWinds).
Kann ich eine Demo von Triggered Automation sehen?
Hier ist ein kurzes Video zur ereignisgesteuerten Automatisierung. Um mehr zu erfahren, können Sie eine persönliche online Demo mit unseren Lösungsingenieuren vereinbaren.

Interaktive Automatisierung

Während die ereignisgesteuerte Automatisierung allgemeine Aufgaben ohne menschliche Berührung ausführt, wurde Interactive Automation entwickelt, um den Workflow eines Ingenieurs zu erweitern - selbst für komplexe mehrstufige Aufgaben. Bei NetBrain ist eine dynamische Karte die Benutzeroberfläche für die Automatisierung und nicht jeweils ein Gerät über die Befehlszeilenschnittstelle.

Interaktive Automatisierung kann in verschiedenen Phasen eines typischen Workflows zur Reaktion auf Vorfälle eingesetzt werden - vom ersten Eingreifen eines Ingenieurs über die Zusammenarbeit von verschiedenen IT-Teams in Echtzeit bis hin zum Rollout eines Fixes im Netzwerk.

Wofür wird Zeit bei der aktiven Fehlerbehebung benötigt?

Interactive Automation Benefits

Wie kann Automatisierung helfen?

Hilfe für Support-Erstkontakte mittels geführter Fehlerbehebung

Wenn ein Netzwerkspezialist mit dem Troubleshooting startet, gibt es eine Reihe allgemeiner Fragen, die er normalerweise stellt:

  • Was hat sich im Netzwerk geändert?
  • Befindet sich das Netzwerk in einem normalen oder abnormalen Zustand?
  • Was soll ich als nächstes tun?

NetBrain bietet eine Reihe von Tools zur Beantwortung dieser Fragen: Zuerst werden dem Netzwerkspezialisten kritische Daten zur Verfügung gestellt, dann unterstützt NetBrain Anomalien zu identifizieren und schließlich wird er durch die nächsten Schritte mit kontextbezogenen „empfohlenen Maßnahmen“ geleitet.

Mit NetBrains Data View Templates hat Ihr Team virtuell alle Netzwerkdaten jederzeit zur Hand. Durch dynamisches Klicken auf eine Datenansicht werden Datenebenen auf einer dynamischen Karte ein- und ausgeschaltet, sodass das Netzwerk aus jeder Perspektive einfach visualisiert werden kann. Wenn Sie beispielsweise ein Routing-Problem beheben, aktivieren Sie eine BGP-Datenansicht, um die BGP-Konfiguration oder den Nachbarstatus anzuzeigen. Wenn Sie Paketverluste diagnostizieren, aktivieren Sie eine Datenansicht, um Schnittstellenfehler wie Eingabeverluste oder CRC-Fehler anzuzeigen.

In diesen „Data Views“ werden nicht nur Rohdaten, sondern auch Anomalien in diesen Daten über Tausende von Parametern hinweg angezeigt. Beispielsweise kann die Golden Baseline anzeigen, dass ein BGP-Router normalerweise vier aktive Nachbarn haben sollte. Wenn dieser Router einen Nachbarn verliert, wird dies als Warnung auf der Karte angezeigt, was möglicherweise ein Hinweis auf einen Fehler ist.

Um die Support-Ingenieure zu einer noch tiefergehenden Fehlerbehebung zu führen und die Notwendigkeit einer Eskalation zu minimieren, können Sie auch empfohlene Maßnahmen definieren, die die Ingenieure schrittweise durch das Troubleshooting führen. Wenn eine Warnung beispielsweise anzeigt, dass ein BGP-Nachbar gelöscht wurde, bietet die empfohlene Aktion möglicherweise ein BGP-Runbook zur Fehlerbehebung an, das der Techniker als nächsten Schritt ausführen kann. Dieses Runbook wurde möglicherweise vorab von dem Architekten erstellt oder angepasst, der das BGP-Netzwerk ursprünglich entworfen hatte.

Verbesserte Teamzusammenarbeit während der aktiven Fehlerbehebung

Da viele Vorfälle eine Eskalation erfordern, erfolgt die Fehlerbehebung oft durch ein Team. Somit ist es notwendig, dass alle zur gleichen Zeit dasselbe betrachten, um Redundanz zu reduzieren und die Zusammenarbeit zu optimieren.

In einer einzelnen NetBrain-URL ist eine dynamische Karte des untersuchten Gebiets und alle dazu durchgeführten Schritte zur Fehlerbehebung enthalten. Dieser Fehlerbehebungsdatensatz wird automatisch in einem Executable Runbook dokumentiert. Wenn Teams gemeinsam Fehler beheben, können sie gemeinsam auf diese URL und den Verlauf des Vorfalls aus Netzwerkperspektive zugreifen.

Diese Fähigkeit, Teams stets auf dem gleichen Wissensstand halten zu können, erleichtert bessere Übergaben und vermeidet Doppelarbeit.

Automatisiert Änderungen durchführen und Auswirkungen bewerten

Die schnelle Wiederherstellung von Unternehmensdiensten ist das Hauptziel der Reaktion auf Vorfälle. Das Bereitstellen eines Fixes kann jedoch zeitaufwändig sein und birgt das Risiko eines Kollateralschadens. Es ist kritisch, Ausfälle effektiv zu beheben und gleichzeitig das Risiko bei der Problembehebung zu verringern.

Vom Design über die Implementierung bis hin zur Überprüfung automatisiert das Change Management von NetBrain den gesamten Change-Management-Prozess. Sie können komplexe Änderungen gleichzeitig auf mehreren Geräten anstoßen und sogar in Ansible integrieren, wenn dies das Werkzeug Ihrer Wahl für die Änderungs-Orchestrierung ist.

Mit NetBrain können Sie die Auswirkungen einer Änderung auf das Netzwerk und die darauf ausgeführten Anwendungen schnell bewerten und visualisieren. Dies ist möglich, indem vor und nach der Änderung Benchmarks für die Umgebung durchgeführt werden und die Application Assurance Engine von NetBrain genutzt wird, um die Auswirkungen der Änderung auf Anwendungsebene zu überprüfen. Wenn im Änderungsfenster Probleme festgestellt werden, können Sie mit einem Klick zum vorherigen Status zurückkehren.

Interactive Automation

Nerd-Modus

Wie unterscheidet sich die interaktive Automatisierung von der ereignisgesteuerten Automatisierung?

Die ereignisgesteuerte Automatisierung wird ohne die Hilfe eines Menschen durchgeführt – sie wird ausschließlich durch einen Vorfall oder ein Tool eines anderen Anbieters ausgelöst. Die interaktive Automatisierung Teil des kontinuierlichen menschlichen Troubleshooting-Workflows.

Beispiele für interaktive Automatisierung sind, wenn ein Techniker eine Quell- und Ziel-IP-Adresse eingibt, um zwei Endpunkte automatisch mit dem sogenannten „A/B Path Calculator“ abzubilden, oder wenn er Echtzeit-Schnittstellenfehler über die „Data View“ in über 60 Schnittstellen visualisiert. Die Benutzeroberfläche für die interaktive Automatisierung ist eine dynamische Netzwerkkarte, die intuitiv und visuell gestaltet ist.

Wie sammelt NetBrain Daten für die Diagnose?

NetBrain sammelt Daten mithilfe von CLI, SNMP oder APIs. Bei der ersten Einrichtung von NetBrain müssen Sie dem System eine Liste schreibgeschützter Anmeldeinformationen bereitstellen, die NetBrain jedem Gerät in Ihrem Netzwerk zuordnet. Wenn NetBrain auf Daten von einem Gerät zugreifen muss, verwendet es die zugehörigen Anmeldeinformationen in Echtzeit, um sich anzumelden und CLI-Befehle auszugeben. Die Ausgabe von CLI-Befehlen wird dann vom System automatisch ausgelesen und analysiert.

Wie zeigt NetBrain Diagnosedaten an?

NetBrain verwendet eine dynamische Karte als Benutzeroberfläche zur Visualisierung von IT-Daten. Da ein einzelnes Netzwerkgerät oder eine einzelne Schnittstelle möglicherweise Hunderte von Attributen aufweist, können die Daten dynamisch ein- und ausgeschaltet werden - mit einer Technologie namens „Data View“. Power User können definieren, welche Art von Daten innerhalb einer Datenansicht verfügbar sind und welche unterschiedlichen Datenansichten auf einer bestimmten Karte verfügbar sind. Wenn beispielsweise ein Gerät auf der Karte mit BGP konfiguriert ist, ist eine BGP-Datenansicht verfügbar.

Woher weiß NetBrain, ob die beobachteten Daten normal oder eine Anomalie sind?

NetBrain erstellt und verwaltet eine sogenannte „Golden Baseline“ über Tausende von Parametern für jedes Gerät in Ihrem Netzwerk. Beispielsweise könnte NetBrain lernen, dass der Core-Router in Ihrem Münchner Rechenzentrum einen normalen CPU-Bereich zwischen 30% und 60% und 4 BGP-Nachbarn hat. Wenn Sie diese Daten auf einer dynamischen Karte beobachten, werden diese Parameter als Warnungen angezeigt, wenn sie nicht mit der Golden Baseline übereinstimmen. Dies kann einen Hinweis auf einen Fehler geben.

Wie erstellt NetBrain eine Golden Baseline?

NetBrain führt für über Tausende von Parametern in Ihrem Netzwerk einen wiederkehrenden Snapshot durch, der als Benchmark bezeichnet wird. Anschließend verwendet NetBrain KI-Techniken, um nach Trends für diese Daten zu suchen. Wenn NetBrain beispielsweise 7 aufeinanderfolgende Benchmarks mit einer CPU zwischen 30% und 60% sieht, kann davon ausgegangen werden, dass dies die Golden Baseline ist. Wenn die CPU später 80% beträgt, kann dies einen „Golden Baseline Alert“ auslösen. Benutzer können auch manuell Kriterien für eine Golden Baseline erstellen und definieren.

Wie können User so viele unterschiedliche Daten in NetBrain verstehen?

Daten einer ähnlichen Kategorie können in einer einzigen Datenansicht zusammengefasst werden. Beispielsweise kann eine BGP-Datenansicht die Karte mit der relevanten BGP-Konfiguration für jedes Gerät, die Anzahl der BGP-Nachbarn jedes Geräts und jede mit BGP konfigurierte Schnittstelle in einer bestimmten Farbe hervorheben. Power User haben außerdem die Möglichkeit, mit jeder Datenansicht „Empfohlene Aktionen“ zu definieren, damit andere Nutzer wissen, wo sie nach zugehörigen Daten oder Aktionen suchen müssen.

Kann ich eine Demo über die interaktive Automatisierung sehen?
Hier ist ein kurzes Video zur „Interactive Automation“. Um mehr zu erfahren, können Sie eine persönliche online Demo mit unseren Lösungsingenieuren vereinbaren.
}

Proaktive Automatisierung

Mit dem Wunsch, es beim nächsten Mal besser zu machen, nutzen erstklassige IT-Verantwortliche die Post-Mortem-Überprüfung, um festzustellen, wie die Auswirkungen eines ähnlichen Problems in Zukunft verhindert oder verringert werden können. Leider ist der Erfolg solcher Bemühungen in großem Maße abhängig von inkonsistenter Anwendung und der Schwierigkeiten, das Gelernte auch umzusetzen.

Das Ziel der proaktiven Automatisierung ist es, die aus jedem Vorfall gewonnenen Erkenntnisse zu kodifizieren und in Automatisierungsaufgaben umzusetzen, damit diese in Zukunft vom breiteren Team genutzt werden können.

Warum wurden bisher keine Lehren aus früheren Vorfällen gezogen?

Triggered Automation Benefits

Wie kann Automatisierung helfen?

Der Verlauf des Troubleshooting-Prozesses wird automatisch dokumentiert

Mit NetBrain werden alle Diagnoseschritte und Daten eines bestimmten Vorfalls in einem Runbook gespeichert, das Teil einer gemeinsam nutzbaren URL zur Überprüfung ist. In diesem Sinne erfolgt die Fehlerbehebung an sich und die Dokumentation des Fehlerbehebungsprozesses gleichzeitig und automatisch. Diese Dokumentation ist bei „Post-Mortem“-Überprüfungen von unschätzbarem Wert, damit die Teams herausfinden können, was sie beim nächsten Mal besser machen können. Wissen wird in Automatisierungsaufgaben umgewandelt.

Der Workflow zur Fehlerbehebung, den NetBrain in einem Runbook dokumentiert hat, kann nicht nur gemeinsam geteilt, sondern auch ausgeführt werden. Dies bedeutet, dass das Know-how eines erfahreneren Spezialisten von einem viel breiteren Team effektiv genutzt werden kann, damit mehr Ausfälle selbst behoben werden können, wenn die Wissensbibliothek wächst.

Arbeitslasten werden „nach links” verschoben

Der Prozess, mit dem ein Team weniger erfahrene IT-Kollegen in die Lage versetzt, Eskalationen zu minimieren, wird als „shifting workloads left“ bezeichnet. Wenn Ingenieure ihre Workflows dokumentieren und als ausführbare Runbooks freigeben, ist dieses Ziel viel besser erreichbar.

Ausführbare Runbooks können in Form der interaktiven Automatisierung für das Team freigegeben werden, indem sie während der Fehlerbehebung als „empfohlene Aktionen“ angeboten werden. Dieselben Runbooks können sogar „noch weiter nach links“ verschoben und so konfiguriert werden, dass sie über ereignisgesteuerte Automatisierung ohne menschliche Berührung ausgeführt werden. Durch die Verlagerung von Know-how und Arbeitsbelastung „nach links“ werden erfahrene Netzwerkingenieure entlastet und die MTTR (Meant Time to Repair) kontinuierlich reduziert.

Proactive Automation

Nerd-Modus

Wie werden Runbooks erstellt?
Runbooks können als eigenständiger Prozess erstellt werden, um Know-how zu dokumentieren und auszutauschen. Oder sie können automatisch im Rahmen einer laufenden Fehlerbehebung erstellt werden. Jede in NetBrain ausgeführte Aufgabe wird automatisch als Schritt in einem Runbook dokumentiert. Am Ende eines Fehlerbehebungsereignisses können alle Schritte in einem Runbook ausgewählt und gespeichert werden, um eine Runbook-Vorlage zu erstellen. Diese Vorlage kann dann für die zukünftige Verwendung mit dem Team geteilt werden.
Wie werden traditionelle CLI-Aktivitäten in einem Runbook dokumentiert?
NetBrain bietet einen SmartCLI-Client an, der sich ähnlich wie ein herkömmliches CLI-Tool verhält, ähnlich wie Putty. Ein Unterschied besteht in der Möglichkeit, über den SmartCLI-Client in NetBrain zu dokumentieren. Jeder Text in der Ausgabe einer CLI kann an NetBrain gesendet werden. NetBrain dokumentiert dieses Ergebnis auf einem Runbook-Knoten. Nach der Dokumentation analysiert NetBrain den Text auf intelligente Weise und analysiert ihn auf Variablen, die NetBrain als diskrete Daten erkennt. Diese Variablen können zur Automatisierung verwendet werden.
Wie werden Runbooks nach Abschluss der Fehlerbehebung freigegeben?
Ein NetBrain-Runbook kann jederzeit als Vorlage gespeichert werden. Sie haben die Möglichkeit, Schritte im Runbook auszuwählen und zu entfernen, die Sie beibehalten oder löschen möchten. Sobald die Vorlage fertig ist, kann sie in einer Runbook-Bibliothek freigegeben, als „empfohlene Aktion“ für Benutzer angeboten oder sogar so eingestellt werden, dass sie automatisch ohne menschliche Berührung ausgelöst wird.
Wie verhindert proaktive Automatisierung das erneute Auftreten von Problemen?
Bei prokativer Automatisierung geht es darum, „beim nächsten Mal besser zu werden“. Wenn die Fehlerbehebung beim letzten Mal 4 Stunden gedauert hat, dauert es beim nächsten Mal immer noch 4 Stunden? Proaktive Automatisierung dient auch zur Beseitigung zukünftiger Probleme. Die Automatisierung kann so geplant werden, dass sie proaktiv für das gesamte Netzwerk ausgeführt wird, um nach Problemen zu suchen, bevor ein Nutzer darunter leidet. Wenn Sie beispielsweise ein Failover-Gerät gefunden haben, das nicht mit derselben QoS-Richtlinie wie das primäre konfiguriert wurde, schlägt ein Failover fehl. Um sicherzustellen, dass dieses Problem nicht im gesamten Netzwerk auftritt, können Sie diese Diagnose jeden Sonntag um 12:00 Uhr im gesamten Netzwerk ausführen.