Teruggaan

Pak intermitterende problemen aan met "Just in Time" netwerkprobleemoplossing

by Juli 11, 2018

Als je bent zoals de meeste netwerkingenieurs, probeer je bovenaan je lijst met meest frustrerende taken een netwerkprobleem op te lossen dat niet langer speelt. We zijn er allemaal geweest: je opent een probleemticket, maar de omstandigheden die het probleem oorspronkelijk veroorzaakten, zijn nu veranderd en het probleem lijkt in het niets te zijn verdwenen. Het beste wat we kunnen doen is het ticket sluiten als NTF (geen problemen gevonden) of CND (kan niet dupliceren) en hopen dat het niet opnieuw opduikt. (Spoiler alert: dat zal gebeuren, en waarschijnlijk op het slechtst mogelijke moment.) En nu SDN "echt wordt", zullen we alleen maar meer van deze kortstondige intermitterende problemen zien opkomen.

Het is bijna onmogelijk om deze intermitterende problemen te reproduceren en je moet geluk hebben om ze in real time "live" te zien. Maar nu met NetBrain u kunt een geautomatiseerde diagnose van een probleem activeren op het moment dat het zich voordoet - netwerkprobleemoplossing met "just in time"-automatisering.

Eigenlijk is het oplossen van een intermitterend probleem vrij eenvoudig. Maar vastpinnen is dat niet.

 

Activeer automatische 'niveau 0'-diagnose voor bestemmingspagina

NetBrain Integrated Edition introduceert API-integratie met andere netwerkbeheersystemen, zoals ServiceNow, uw IDS/SIEM-, Splunk-, 24×7-bewakingsoplossingen, zodat zodra een waarschuwing wordt gegenereerd, het pad van het probleemgebied automatisch in kaart wordt gebracht en Uitvoerbaar Runbooks onmiddellijk in actie komen om alle gegevens en analyses over het evenement in realtime vast te leggen. We noemen dit "just in time" automatisering omdat terwijl er een evenement plaatsvindt, alle gegevens die je nodig hebt over het probleem worden automatisch verzameld, geanalyseerd en in context gevisualiseerd op een Dynamic Map. Er is geen menselijke tussenkomst nodig. Als je reageert op het incident, staat alles gewoon op je te wachten.

Het ABC van "Just in Time"-automatisering

Op het moment van een gebeurtenis voert automatisering "just in time" twee verschillende acties uit:

  1. Er wordt dynamisch een kaart van het probleem gemaakt.
  2. Een vooraf gedefinieerde reeks procedures wordt automatisch uitgevoerd om een ​​"niveau-0"-diagnose uit te voeren.

Dynamic Maps Definieer automatisch de omvang van het probleem

Stel dat uw 24×7-bewakingstool van de ene op de andere dag detecteerde dat een applicatie traag werkte en dat er een ServiceNow-ticket werd aangemaakt. Het ServiceNow-ticket wordt automatisch geactiveerd NetBrain om het pad in kaart te brengen waarlangs app-verkeer stroomde tussen de webserver en de databaseserver - en elke hop daartussenin - precies op dat moment. Dit is niet jouw gemiddelde traceroute: NetBrain logt in op de standaardgateway van de webserver om te beginnen met het analyseren van het pad, beginnend met de routeringstabellen en vervolgens met het analyseren van geavanceerde parameters (VRF's, ACL's, PBR, NAT en meer). En u ziet ook het omgekeerde stroompad - cruciaal inzicht als het applicatieverkeer asymmetrisch is. Dit geeft u een nauwkeurige omvang van het probleem in real-time — niet op een later tijdstip, nadat het netwerk het netwerk dynamisch heeft gewijzigd traffic path om een ​​aantal redenen of nadat eerdere probleemoplossers hebben geprobeerd de toepassing opnieuw toe te wijzen. Een URL van de kaart wordt rechtstreeks in het ServiceNow-ticket geschreven. Eén klik en je bent in de Dynamic Map, die kan worden verrijkt met aanvullende prestatie-informatie van uw monitoringoplossing (of elk ander systeem met een API). Alles zit daar op een enkele ruit.

servicenow-ticket

"Just in time"-netwerkprobleemoplossing voert dezelfde stappen uit als u, alleen automatisch - zonder dat u aanwezig hoeft te zijn toen de waarschuwing binnenkwam.

 

Runbooks Automatisch stappen uitvoeren om het probleem te diagnosticeren

Tegelijkertijd - nogmaals, automatisch - een uitvoerbaar bestand Runbook verzamelt prestatiegegevens en geeft in één klap CLI-opdrachten uit over meerdere apparaten van meerdere leveranciers om de relevante gegevens te verkrijgen die u nodig hebt om erachter te komen wat precies de oorzaak is van de traagheid. U ziet hoe het geheugen en het CPU-gebruik eruit zagen toen de waarschuwing werd verzonden, evenals de interfacestatus. De Runbook zal automatisch zoeken naar interfacebotsingen en CRC-fouten in het hele traffic path, controleer op snelheid of duplex-mismatch, dubbele OSPF-ID's, verkeerd geconfigureerde AS-nummers voor BGP-buurverbindingen, enz. Omdat onze eerste vraag altijd is: "Wat is er veranderd?" a Runbook voert een vergelijkende analyse uit van de topologie en routering tussen het moment waarop het probleem werd gedetecteerd en een eerder tijdstip (toen de app prima draaide). Er zijn honderden geautomatiseerde diagnostische gegevens direct beschikbaar en u kunt een Runbook om vrijwel elke taak voor het verzamelen of analyseren van gegevens uit te voeren, zonder ook maar één regel code te hoeven schrijven.

(Matt Speidel gaat dieper in op Hoe uitvoerbaar Runbooks Werk.)

De Runbook voert dezelfde stappen voor het oplossen van netwerkproblemen uit als u, alleen automatisch — zonder dat u aanwezig hoeft te zijn wanneer de melding binnenkwam. En alle diagnostische resultaten worden gedocumenteerd in de Runbook dat is bij de kaart gevoegd. Klik gewoon op de URL van de kaart in het probleemticket en alle gegevensverzameling en -analyse die u sowieso zou hebben gedaan, is al voor u gedaan.

Een senior netwerkbeheerder die ik ken, zei ooit dat intermitterende problemen niet bijzonder intermitterend zijn; het is gewoon ons bewustzijn van hen dat is. De kans is groot dat als een probleem eenmaal opduikt, het weer de kop opsteekt - of ergens anders in het netwerk. NetBrain heeft een nieuwe mogelijkheid geïntroduceerd waarmee u de automatiseringskracht ervan kunt benutten continu en proactief monitor voor welk probleem u zojuist hebt opgelost. Met andere woorden, die mysterieuze periodieke problemen worden bekende problemen.

Bekijk deze korte video om een ​​voorproefje te krijgen van hoe NetBrain kan worden geïntegreerd met andere systemen (zoals ServiceNow, 24×7-bewakingstools) om "just in time" netwerkprobleemoplossingsdiagnose van een netwerkprobleem te bieden op het moment dat het zich voordoet.

 

We kunnen deze door gebeurtenissen getriggerde geautomatiseerde netwerkprobleemoplossing ook beschouwen als een 'niveau-o'-diagnose', omdat alle gegevensverzameling, analyse en visualisatie zijn uitgevoerd voordat een niveau-1-technicus het probleem zelfs maar begint te onderzoeken. In feite doet automatisering al dit werk voordat er ooit een mens in beeld komt.

Je kunt niet repareren wat je niet kunt zien. In de snel veranderende netwerkomgevingen van vandaag zijn problemen al te vaak verdwenen tegen de tijd dat we ze gaan oplossen. Meestal is het oplossen van een intermitterend probleem vrij eenvoudig. Maar vastpinnen is dat niet. Dat is waar "just in time"-automatisering om de hoek komt kijken.

 

Verwant