Retour

Centre d'opérations réseau : contrôle de mission pour un réseau sain

by Philippe Gervasi Le 9 novembre 2017

Avec d'énormes téléviseurs à écran plat montés sur les murs affichant diverses cartes et des lumières clignotantes, un centre d'opérations réseau peut ressembler à un contrôle de mission à la NASA. Mais l'objectif principal d'un centre d'opérations réseau, ou NOC, n'est pas d'exécuter une mission sur la lune, mais de maintenir et d'optimiser les opérations d'une infrastructure réseau.

Si vous pensez qu'il s'agit d'une déclaration générale qui doit être élaborée, vous avez raison. L'idée d'opérations de réseau centralisées peut être ambiguë et l'objectif à multiples facettes, alors décomposons-le en trois domaines : surveillance, journalisationet Prendre part.

Le Monitoring

La surveillance est un combat pour de nombreux CNO. Certains assemblent un patchwork d'agrégateurs de journaux et de systèmes d'alerte dans un semblant de solution de surveillance unifiée. Ces types de projets démarrent avec beaucoup d'enthousiasme mais se transforment rapidement en un ensemble de plates-formes rarement utilisées qui ne se parlent pas et auxquelles personne ne se connecte plus.

Mais qu'une équipe d'exploitation réseau utilise un réseau hors bande ou la fonctionnalité intégrée de leurs commutateurs et routeurs, les alarmes et les alertes sont la pierre angulaire des techniciens NOC.

Imaginez ce scénario : un outil est nécessaire pour obtenir des informations à partir des commutateurs hérités, mais cet outil ne fonctionne pas avec les nouveaux commutateurs du centre de données. Un autre outil est nécessaire pour ceux-ci. Et encore un autre est nécessaire pour les pare-feu car ils ne prennent pas en charge CDP ou LLDP.surveillance de plusieurs écrans

Il n'est pas facile de surveiller une variété de plates-formes divergentes en même temps. En règle générale, les ingénieurs sont redevables à des logiciels pré-emballés qui contiennent tous les modules dont les développeurs pensent que leurs clients ont besoin. Cela limite ce que le NOC peut faire et son efficacité dans la surveillance d'une infrastructure.

Néanmoins, c'est la surveillance qui permet aux techniciens connaissance du réseau, ou en d'autres termes, une idée claire de ce que fait le réseau à un moment donné.

Journal

Les journaux enregistrent tout ce qui se passe sur le réseau, fournissant des indices pour le dépannage et des preuves d'incidents de sécurité. Malheureusement, ils peuvent être extrêmement coûteux à utiliser efficacement, ce qui fait de la journalisation à la fois une malédiction et une bénédiction pour un CNO typique.

Une partie de l'utilisation des informations de journal consiste à créer repères de l'état du réseau à des intervalles significatifs. Ceci est essentiel pour déterminer les tendances et cartographier les flux d'applications. Cette idée apparaît dans les blogs, les livres blancs et les documents sur les meilleures pratiques, mais les benchmarks sont rarement effectués, même par les plus grands CNO, en raison de la difficulté à les réaliser.

Une entreprise de commerce électronique peut créer et stocker une quantité incroyable d'informations de journal, mais elle peut également créer des instantanés de référence du réseau pendant les périodes de pointe telles que le Black Friday, les week-ends et lors d'événements promotionnels. Ces informations donnent aux techniciens réseau une visibilité sur les flux d'applications lorsque le réseau est sous pression pour suivre l'équilibrage de charge et exposer les goulots d'étranglement.

Le problème est que la création de benchmarks n'est pas facile et est par conséquent négligée. Cela nécessite de capturer des données réseau à partir d'une variété de plates-formes à la fois et en relation les unes avec les autres. Cependant, la capture de ces données au fil du temps donne aux techniciens des CNO un modèle à partir duquel travailler et à partir duquel développer leur connaissance du réseau. Et la disponibilité immédiate de ces informations pour toute l'équipe favorise une culture de collaboration.

Agir

Les NOC surveillent les réseaux pour détecter les activités anormales et prendre des mesures. Ils surveillent la santé et la sécurité de l'infrastructure et prennent des mesures pour garantir des performances optimales du réseau, résoudre les incidents et maintenir une transparence. change management processus.

Lorsqu'une alerte arrive, le NOC répond. Un ticket est créé pour suivre l'incident, un ingénieur en prend possession et le processus de dépannage commence.

Lorsque la continuité des activités est affectée, un NOC nécessite un sentiment d'urgence, des flux de travail clairs et des opérations optimisées. Vous n'avez pas le temps de vous connecter à des appareils aléatoires et de rechercher le problème en prenant des photos dans l'obscurité.

L'automatisation et le partage d'informations sont essentiels pour remédier à l'incident le plus rapidement possible.

Temps moyen de réparation, ou MTTR, est le temps moyen nécessaire pour remédier à un incident. Un NOC optimisé utilisera l'automatisation pour réduire MTTR rétablir la continuité des activités dans les plus brefs délais.

Cela peut inclure l'exécution d'un script pour rechercher les différences de configuration entre les configurations en cours d'exécution et les tests de performance. Cela peut également inclure la possibilité d'annuler par programme les modifications afin de restaurer rapidement les services. Et si des appareils doivent être configurés pour résoudre le problème, le NOC doit avoir la certitude qu'ils n'aggravent pas les choses. Cela signifie qu'un NOC optimisé a besoin d'un mécanisme de validation pour tester les modifications avant leur mise en œuvre.

Comment NetBrain Résout ces problèmes

S'appuyant fortement sur l'automatisation, NetBrain s'intègre facilement dans le flux de travail d'un NOC pour fournir les moyens d'exécution dans chacun des trois domaines principaux.

5. Dépanner les technologies avancées 1Tout d'abord, NetBrain n'enferme pas les ingénieurs dans quelques modules spécifiques. Exécutable Runbooks, par exemple, permettent aux techniciens de créer une logique personnalisée qui peut être déployée sur des groupes entiers d'appareils. De cette façon, les ingénieurs peuvent créer des rapports et des alertes personnalisés pour répondre à leurs besoins uniques et pour leurs plates-formes particulières. Une personnalisation facile est nécessaire pour une visibilité de bout en bout.

Deuxièmement, bien que la plupart des CNO d'entreprise apprécient la valeur d'une bonne journalisation, NetBrain va encore plus loin en donnant aux ingénieurs la possibilité de créer des Benchmarks de leur réseau à des intervalles planifiés ou même à la demande.

Les ingénieurs cherchant à optimiser les opérations du CNO peut créer un Benchmark avant et après un changement, à intervalles réguliers comme chaque semaine, pendant les périodes de pointe d'activité, ou éventuellement au début et à la fin d'un quart de travail. C'est un moyen incroyable pour un NOC de suivre les modifications du réseau.

NetBrain donne à tous les membres de l'équipe travaillant sur un incident un accès facile aux mêmes informations en temps réel. Dynamic Maps et exécutable Runbooks permettent à l'équipe de mémoriser des informations et de partager instantanément des données dans un format facilement consommable Améliorez les workflows de dépannagecontribuer à renforcer la collaboration entre ingénieurs.

Troisièmement, NetBrain est un atout dans réduire le temps moyen de réparation. Les ingénieurs ne sont plus au milieu d'une panne se bousculant pour se connecter à des appareils recherchant des diffs et recherchant des commandes ; à la place, l'effet cumulatif de Executable Runbooks, Dynamic Maps, et des Benchmarks à la demande signifient que les équipes techniques peuvent trouver et résoudre rapidement les problèmes ainsi que tester efficacement une nouvelle configuration. Par exemple, NetBrain automatise les commandes CLI et sélectionne des informations significatives à partir de la sortie à afficher sur un Dynamic Map — économisant ainsi des heures de dépannage et réduisant le temps total nécessaire à un NOC pour trouver une solution.

De plus, tirer de la hanche avec les outils de ligne de commande tels que traceroute limitent et fastidieux à utiliser. Traceroute, en particulier, ne peut pas fournir d'informations sur les sauts de couche 2 - limitant considérablement la visibilité - et essayer de cartographier un réseau de cette manière peut prendre des heures plutôt que des secondes avec NetBrain.

Les services informatiques des entreprises d'aujourd'hui n'exécutent pas de missions vers les étoiles, mais ils sont essentiels au maintien d'un réseau sain. Cela signifie une surveillance automatisée, une journalisation et la possibilité d'agir rapidement en cas de panne. Peut-être qu'un jour les réseaux s'autorépareront vraiment, mais jusque-là, nos centres d'opérations de réseau sont les héros de garder les lumières allumées.

Services Connexes