by kelly.yue 25 Mar 2019
J'ai eu une conversation intéressante l'autre jour avec un ami, discutant de ses préoccupations concernant le respect des SLA rigoureux mis en place pour répondre aux exigences de l'entreprise et aux attentes des DSI. Mon ami travaille pour la société d'externalisation informatique qui gère l'infrastructure réseau d'une entreprise mondiale et doit faire face à des amendes considérables si les SLA ne sont pas respectés. Les SLA indiquent des temps de réponse de service spécifiques en ce qui concerne l'acceptation des tickets ouverts, la réponse et la résolution des problèmes de réseau. L'équipe informatique externalisée est également responsable de la mise en œuvre des mises à niveau et des projets d'infrastructure sans provoquer de temps d'arrêt imprévus.
La même ancienne approche de dépannage peut-elle répondre aux SLA d'aujourd'hui ?
Les SLA sont basés sur des délais d'exécution rapides qui défient les techniques de dépannage traditionnelles. Avec le temps qui passe, les ingénieurs réseau doivent souvent formuler une hypothèse basée sur des preuves limitées. Ils passent généralement beaucoup de temps à collecter et à analyser des données uniquement pour déterminer par où commencer le dépannage. Sans outils qui automatisent et accélèrent le processus, l'ingénieur est souvent obligé d'utiliser des procédures manuelles chronophages telles que la connexion à de nombreux appareils jusqu'à ce que le problème puisse être isolé.
En fait, la résolution d'un problème ne représente que 20 % du dépannage. Les 80 % restants déterminent ce qui cause le problème en premier lieu.
Ces mêmes procédures manuelles et efforts de dépannage peuvent également s'appliquer aux mises à niveau de l'infrastructure et aux implémentations de projets, en particulier en cas de problème. Non seulement l'équipe réseau doit tester des mises à niveau complexes sans l'équipement de laboratoire de test nécessaire et coûteux, mais elle doit également comprendre l'impact des modifications proposées et ce qui pourrait mal tourner pendant la mise à niveau. Avoir la possibilité d'exécuter différents scénarios avant la mise à niveau ou la mise en œuvre du projet est inestimable.
Histoire des tranchées : dépannage manuel des problèmes de configuration de vPC
Au cours de ma conversation avec mon ami, il a discuté des détails d'un récent projet de rafraîchissement de commutateur qu'ils ont mis en œuvre dans leur centre de données. Ils déployaient plusieurs racks de nouveaux commutateurs Cisco Nexus et configuraient des canaux de ports virtuels (vPC). Un vPC permet à deux liaisons connectées à deux commutateurs Nexus différents d'apparaître comme un canal de port unique pour le troisième périphérique. Il offre de nombreux avantages; certains incluent l'utilisation de toute la bande passante de liaison montante disponible, une topologie sans boucle et aucun port bloqué par le protocole Spanning Tree.
La nuit de la fenêtre de changement, l'équipe a mis en œuvre la solution conçue mais avait une capacité limitée à tester la solution avant la mise en œuvre dans l'environnement de production. La conception impliquait la configuration d'un ID de domaine vPC différent par paire de commutateurs Nexus 9K, de nombreux vPC et la configuration de canaux de port pour chaque paire de commutateurs. La mise en œuvre s'est bien déroulée et tout le monde est rentré chez lui pour la soirée.
Le lendemain, ils ont été inondés de billets. Les choses qui fonctionnaient la veille ne fonctionnaient plus. Même s'ils savaient ce qui avait changé et où concentrer leurs efforts, en raison de l'étendue des changements apportés la nuit précédente, il y avait tellement de variables à examiner.
La quantité d'efforts manuels requis par les ingénieurs pour exécuter la série de commandes sur tous les commutateurs pouvait prendre des heures. NetBrain est capable d'optimiser l'ensemble du flux de travail de dépannage et d'effectuer les tâches en quelques secondes.
Il s'agissait d'un grand centre de données et cela impliquait de nombreux dépannages manuels, la connexion à tous les nouveaux commutateurs et l'exécution d'une série de commandes. Ils ont découvert plusieurs problèmes de configuration. Une paire de commutateurs Nexus n'avait pas le même ID de domaine vPC configuré, et une autre paire de commutateurs avait un problème de cohérence de configuration de type 1.
Afficher le vpc de configuration en cours d'exécution affiche la configuration en cours pour tous les canaux de port virtuels. Afficher le brief vpc affiche de brèves informations sur le canal de port virtuel, telles que l'ID de domaine vpc, l'état de la liaison homologue et les vérifications de cohérence de la configuration. Afficher le rôle vpc affiche le rôle vpc des appareils homologues. Afficher les paramètres de cohérence vpc affiche les paramètres qui doivent être compatibles entre les interfaces de canal de port virtuel. Le mot clé de défis peut être utilisé pour afficher tous les paramètres globaux de type 1 des deux côtés de la liaison homologue. Toutes les configurations de type 1 doivent être identiques des deux côtés du lien de pair de vpc ou il n'apparaîtra pas. Afficher le résumé du canal de port affiche des informations sur les canaux de port.
Dépannage des problèmes de vpc avec l'automatisation
En raison de la complexité et de la taille du réseau, j'ai pu voir comment cette entreprise pourrait clairement bénéficier de l'application de l'automatisation à la fois au dépannage et aux nouveaux déploiements d'infrastructure. Ce projet d'actualisation unique a nécessité beaucoup de dépannage manuel et d'efforts pour identifier la multitude de problèmes. NetBrain aurait pu être utilisé pour indiquer un environnement de laboratoire afin de mieux tester l'impact des changements proposés et aurait pu identifier des problèmes imprévus.
NetBrainLa plate-forme d'automatisation de fournit aux ingénieurs une visibilité de bout en bout sur leurs environnements en découvrant le réseau de manière intelligente et grâce à l'utilisation de Dynamic Maps. Leur runbook la technologie accélère le dépannage en exécutant des actions appelées Qapps pour trouver des problèmes de configuration, et la runbook fonctionne à partir d'un Dynamic Map. La quantité d'efforts manuels requis par les ingénieurs pour exécuter la série de commandes sur tous les commutateurs pouvait prendre des heures. NetBrain est capable d'optimiser l'ensemble du flux de travail de dépannage et d'effectuer les tâches en quelques secondes.
Dans la capture d'écran ci-dessous, vous pouvez voir le Dynamic Map du réseau découvert et la runbook utilisé pour collecter les informations de configuration vpc.
A Dynamic Map récupère et visualise automatiquement l'intégralité de la configuration du vPC en quelques secondes.
Ci-dessous, vous voyez les résultats de l'une des commandes CLI exécutées et à quel point il est facile d'ajouter des commandes CLI supplémentaires que vous souhaitez exécuter sur tous les commutateurs.
Au lieu de collecter les données CLI une commande à la fois, commutateur par commutateur, vous pouvez automatiquement collecter instantanément les informations de configuration vPC.
Ici, les résultats de l'état du vPC sont affichés et d'autres graphiques pertinents peuvent être ouverts pour afficher des informations supplémentaires.
Et visualisez les résultats des commandes CLI automatisées en contexte directement sur la carte, avec des liens en un clic vers d'autres données pertinentes.
Pour aller plus loin
Les SLA sont de plus en plus serrés chaque jour. Lorsqu'un problème de réseau menace ces SLA stricts, chaque minute compte littéralement. Pourtant, la majeure partie de notre temps de dépannage est encore consacrée à essayer d'identifier et d'isoler le problème "à la main". Il existe aujourd'hui une solution d'automatisation qui vous donne un bon départ pour résoudre le problème, une solution qui fournit l'intelligence CLI approfondie dont vous avez besoin - seulement en quelques secondes au lieu d'heures.
Vous voulez découvrir comment NetBrain peut être utilisé ou appliqué au sein de votre infrastructure ? Pourquoi ne pas profiter d'un demo voir par vous-même? Alors, pourquoi ne pas commencer à gagner du temps, à éliminer les erreurs humaines et, surtout, à réduire le résultat net ?
Consultez également ces blogs connexes :