Retour

Dépannage du redoutable problème de réseau intermittent

by Paul Campbell 14 Mar 2019

Combien d'entre vous ont dépanné, traité un cas d'assistance ou reçu un appel client lié à un problème de réseau intermittent ? J'imagine beaucoup. La plupart des individus dans une forme ou une autre d'un domaine lié à l'informatique ont tendance à être plus analytiques. Avec un esprit analytique, on pense souvent que si ça continue, on doit pouvoir le répéter. Dans la plupart des cas, vous avez raison. Cependant, comme j'exerce diverses formes de travail en informatique depuis près de vingt ans, je peux vous assurer que ce n'est pas toujours le cas.

Les problèmes de réseau intermittents sont des événements qui ne sont pas si facilement répliqués. Ils ne surviennent pas non plus au même moment de la journée ni n'affectent toujours les mêmes utilisateurs. En tant que personne qui s'est attaquée à ce genre de problèmes à divers postes, permettez-moi de vous dire qu'ils sont horribles à rencontrer. Vous vous sentez impuissant et vous vous interrogez parfois sur votre santé mentale !

NetBrain nous a permis d'identifier le problème et d'avoir un point de départ. Résoudre n'importe quel problème nécessite de comprendre le problème, et sans NetBrain, je ne suis pas sûr que nous aurions été si rapides à comprendre par où commencer.

Histoire vraie : pannes intermittentes six semaines après une mise à niveau
Une fois, j'ai eu un client qui effectuait une mise à niveau d'un environnement Cisco hérité vers un environnement Cisco Nexus plus récent, à l'époque où l'architecture 7K/5K/2K est sortie et prenait d'assaut le marché. Une partie de notre mission de conseil impliquait une évaluation du réseau avant même de commencer. Pourquoi? Nous voulions assurer une transition transparente vers la nouvelle architecture et vérifier que chaque base était couverte. Nous nous efforçons d'éviter les pannes, les temps d'arrêt ou l'impact de quelque sorte que ce soit. Cependant, il se passe des choses qui échappent parfois à notre contrôle. (présage, peut-être ?)

À la fin du basculement, tous les tests ont été réussis et toutes les équipes étaient satisfaites. Ce n'est pas une semaine, deux semaines ou trois semaines plus tard que nous avons été rappelés. C'était environ six semaines après le début de leurs opérations normales lorsque le client a appelé, craignant qu'il subisse des pannes intermittentes et avait besoin de notre aide pour comprendre ce qui n'allait pas. C'était un problème qui affectait apparemment des applications aléatoires et des utilisateurs aléatoires. Comme la plupart des gens, nous n'avons pas immédiatement pensé que le nouveau cœur du centre de données était leur problème. Pourquoi? Cela faisait six semaines ! L'expérience nous a appris que la plupart des problèmes se seraient produits et auraient été remarqués dans les 24 heures ou une semaine au plus, s'il en existait.

Pourquoi les solutions NMS ne résolvent-elles pas le problème ?
Quelle est la première chose que nous avons faite ? Viré NetBrain et réexécuté une découverte mise à jour du réseau et l'a comparée à notre carte post-installation. Une copie exacte, pas même une seule commande CLI n'était différente entre les deux analyses. Nous avons commencé à discuter du fait que rien n'avait changé depuis notre départ, ce qui a permis au directeur informatique et au vice-président de se sentir à l'aise que leur équipe ne se soit pas trompée. (Cela nous a également fait nous sentir bien aussi.) Mais cela n'a aidé personne à se sentir bien pour résoudre le problème en cours - un gremlin intermittent qui semblait provoquer des déconnexions et des trous noirs de trafic.

comparer les données du réseauNetBrain peut comparer pratiquement toutes les données réseau entre l'état en direct et les instantanés historiques en un seul clic.

Nous avons convenu de rester et de laisser une carte à grande échelle du campus, du centre de données et de quelques sites distants en mode moniteur pendant la nuit, environ 16 heures au total. Lorsque nous sommes revenus le lendemain, nous avons remarqué que certaines des moyennes continues fluctuaient largement pour le deuxième Nexus 7K. Enfin, nous avions un point de départ ! Nous avons commencé avec leurs solutions de gestion de réseau, qui impliquaient Splunk, SolarWinds et une poignée d'autres outils. Ils n'ont vu aucun problème la nuit précédente. Les ont-ils manqués ou les seuils étaient-ils trop bas ?

Revenir à NetBrain, nous avons remarqué que le trafic semblait fluctuer à l'intérieur et à l'extérieur du deuxième Nexus 7K, ce qui ne correspondait pas au modèle de trafic entrant/sortant habituel observé sur le premier Nexus 7K. Courir par paire, avec autant de liens vPC que nous en avions, c'était étrange.

Vous ne pouvez pas réparer ce que vous ne pouvez pas voir
Qu'avons-nous trouvé ? Eh bien, nous avons trouvé un bogue, un bogue intermittent qui bloquait le trafic. Les bogues sont inévitables ; ils se produisent sur tous les produits, logiciels ou solutions disponibles. Il se trouve que nous en avons rencontré un en particulier dans ce cas qui entraînerait le trafic des modules de matrice de fond de panier alors qu'il tentait de transmettre des données de, par exemple, l'emplacement 3 à l'emplacement 2. Les modules de fond de panier n'ont pas échoué, donc pas d'alertes. Le blocage du trafic se produirait lors d'un débordement de mémoire tampon en raison d'autres facteurs - le client ne pompait pas assez de données pour être proche du plafond de traitement des données. Une version de code a résolu le problème. Client heureux.

NetBrain a fourni un aperçu précieux d'une situation où tous les autres moyens raisonnables de « ce qui est normal » ont échoué. Les autres outils auraient pu être réglés de manière à capter ce dont nous avions besoin, mais cela alerterait également sur beaucoup trop de problèmes non sérieux. NetBrain nous a permis d'identifier le problème et d'avoir un point de départ. Résoudre n'importe quel problème nécessite de comprendre le problème, et sans NetBrain, je ne suis pas sûr que nous aurions été si rapides à comprendre par où commencer.


L'analyse comparative historique en un clic n'est qu'un moyen NetBrain aide à résoudre les problèmes intermittents frustrants. Il peut également déclencher une analyse automatisée à partir de votre solution de surveillance 24 × 7, système de billetterie, IDS/SIEM dès qu'un problème est détecté.

Nous appelons cette automatisation "juste à temps" - voyez-la en action en programmant une démonstration ici : montrez-moi l'automatisation juste à temps 

 

Services Connexes