Zurück

Behebung des gefürchteten intermittierenden Netzwerkproblems

by Paul Campell 14. März 2019

Wie viele von Ihnen haben Probleme behoben, einen Supportfall bearbeitet oder einen Kundenanruf im Zusammenhang mit einem zeitweiligen Netzwerkproblem erhalten? Ich stelle mir vieles vor. Die meisten Personen in irgendeiner Form eines IT-bezogenen Bereichs neigen dazu, eher analytisch zu denken. Mit einem analytischen Verstand denken wir oft, dass wir in der Lage sein müssen, es zu wiederholen, wenn es immer wieder passiert. In den meisten Fällen haben Sie Recht. Da ich jedoch seit fast zwanzig Jahren verschiedene Formen der IT-Arbeit mache, kann ich Ihnen versichern, dass dies nicht immer der Fall ist.

Intermittierende Netzwerkprobleme sind Ereignisse, die nicht so einfach repliziert werden können. Sie kommen auch nicht zur gleichen Tageszeit oder betreffen immer dieselben Nutzer. Als jemand, der diese Art von Problemen in verschiedenen Positionen angegangen ist, möchte ich Ihnen sagen, dass es schrecklich ist, ihnen zu begegnen. Sie fühlen sich hilflos und stellen manchmal Ihren Verstand in Frage!

NetBrain ermöglichte es uns, das Problem zu lokalisieren und einen Ansatzpunkt zu finden. Um ein Problem zu lösen, muss man das Problem verstehen, und zwar ohne NetBrain, ich bin mir nicht sicher, ob wir so schnell verstanden hätten, wo wir anfangen sollen.

Wahre Geschichte: Intermittierende Ausfälle sechs Wochen nach einem Upgrade
Ich hatte einmal einen Kunden, der von einer alten Cisco-Umgebung auf eine neuere Cisco Nexus-Umgebung aufrüstete, damals, als die 7K/5K/2K-Architektur herauskam und den Markt im Sturm eroberte. Ein Teil unseres Beratungsengagements beinhaltete eine Netzwerkbewertung, bevor wir überhaupt begannen. Wieso den? Wir wollten einen nahtlosen Übergang zur neuen Architektur sicherstellen und prüfen, ob alle Grundlagen abgedeckt sind. Wir bemühen uns um keine Ausfälle, Ausfallzeiten oder Auswirkungen jeglicher Art. Es passieren jedoch Dinge, die manchmal außerhalb unserer Kontrolle liegen. (Vorahnung vielleicht?)

Nach Abschluss der Umstellung waren alle Tests bestanden und alle Teams waren zufrieden. Es war nicht eine Woche, zwei Wochen oder drei Wochen später, dass wir einen Rückruf bekamen. Es war ungefähr sechs Wochen nach Beginn ihres normalen Betriebs, als der Kunde anrief, besorgt darüber, dass er zeitweise Ausfälle hatte und unsere Hilfe brauchte, um zu verstehen, was los war. Es war ein Problem, das anscheinend zufällige Anwendungen und zufällige Benutzer betraf. Wie die meisten Menschen dachten wir nicht sofort, dass der neue Rechenzentrumskern ihr Problem ist. Wieso den? Es waren sechs Wochen! Die Erfahrung hat uns gezeigt, dass die meisten Probleme, wenn überhaupt, innerhalb von 24 Stunden oder höchstens einer Woche aufgetreten und bemerkt worden wären.

Warum lösen NMS-Lösungen das Problem nicht?
Was haben wir als erstes gemacht? Angefeuert NetBrain und eine aktualisierte Erkennung des Netzwerks erneut durchgeführt und mit unserer Karte nach der Installation verglichen. Ein exaktes Duplikat, nicht einmal ein CLI-Befehl unterschied sich zwischen den beiden Scans. Wir begannen darüber zu diskutieren, dass sich seit unserem Weggang nichts geändert hatte, was dem IT-Direktor und dem VP ein gutes Gefühl gab, dass ihr Team nichts vermasselt hatte. (Außerdem fühlten wir uns auch großartig.) Aber es half niemandem dabei, sich gut zu fühlen, wenn es darum ging, das vorliegende Problem zu beheben – ein zeitweiliger Gremlin, der Verbindungsabbrüche und schwarze Löcher im Datenverkehr zu verursachen schien.

Netzwerkdaten vergleichenNetBrain kann praktisch alle Netzwerkdaten zwischen Live-Status und historischen Snapshots mit nur einem Klick vergleichen.

Wir einigten uns darauf, hier zu bleiben und eine großformatige Karte des Campus, des Rechenzentrums und einiger entfernter Standorte über Nacht im Überwachungsmodus zu hinterlassen, insgesamt ~ 16 Stunden. Als wir am nächsten Tag zurückkamen, stellten wir fest, dass einige der kontinuierlichen Durchschnittswerte für das zweite Nexus 7K stark schwankten. Endlich hatten wir einen Anfang! Wir begannen mit ihren Netzwerkmanagementlösungen, die Splunk, SolarWinds und eine Handvoll anderer Tools umfassten. Sie haben in der vergangenen Nacht keine Probleme gesehen. Haben sie sie verpasst oder waren die Schwellen zu niedrig?

Zurück gehen zu NetBrain, bemerkten wir, dass der Datenverkehr beim zweiten Nexus 7K ein- und ausgehend zu schwanken schien, was nicht mit dem regulären eingehenden/ausgehenden Datenverkehrsmuster übereinstimmte, das auf dem ersten Nexus 7K zu sehen war. Als Paar zu laufen, mit so vielen vPC-Links, wie wir hatten, war seltsam.

Sie können nicht reparieren, was Sie nicht sehen können
Was haben wir gefunden? Nun, wir haben einen Bug gefunden, einen intermittierenden Bug, der den Datenverkehr vernichten würde. Fehler sind unvermeidlich; Sie treten bei jedem Produkt, jeder Software oder Lösung auf dem Markt auf. Wir haben in diesem Fall zufällig einen bestimmten getroffen, der dazu führen würde, dass die Backplane-Fabric-Module den Datenverkehr blockieren, wenn sie versuchen, Daten von beispielsweise Steckplatz 3 nach Steckplatz 2 zu übertragen. Die Backplane-Module sind nicht ausgefallen, daher keine Warnungen. Das Blackholing des Datenverkehrs würde aufgrund anderer Faktoren bei einem Pufferüberlauf auftreten – der Kunde pumpte nicht annähernd genug Daten, um nahe an der Obergrenze der Datenverarbeitung zu sein. Ein Code-Release löste das Problem. Glücklicher Kunde.

NetBrain lieferte wertvolle Einblicke in eine Situation, in der alle anderen vernünftigen Mittel, „was normal ist“, versagten. Die anderen Tools hätten so abgestimmt werden können, dass sie das erfassen, was wir brauchen, aber es würde auch bei viel zu vielen nicht ernsten Problemen warnen. NetBrain ermöglichte es uns, das Problem zu lokalisieren und einen Ansatzpunkt zu finden. Um ein Problem zu lösen, muss man das Problem verstehen, und zwar ohne NetBrain, ich bin mir nicht sicher, ob wir so schnell verstanden hätten, wo wir anfangen sollen.


Die historische Vergleichsanalyse mit einem Klick ist nur eine Möglichkeit NetBrain hilft, frustrierende intermittierende Probleme zu lösen. Es kann auch eine automatisierte Analyse von Ihrer 24×7-Überwachungslösung, Ihrem Ticketing-System oder IDS/SIEM auslösen, sobald ein Problem erkannt wird.

Wir nennen dies „Just-in-Time“-Automatisierung – sehen Sie es in Aktion, indem Sie hier eine Demo vereinbaren: Zeigen Sie mir die Just-in-Time-Automatisierung 

 

Verbunden