by kelly.yue 25 de marzo, 2019
Tuve una conversación interesante el otro día con un amigo, discutiendo sus preocupaciones sobre el cumplimiento de los SLA estrictos establecidos para cumplir con los requisitos comerciales y las expectativas del CIO. Mi amigo trabaja para la empresa de subcontratación de TI que administra la infraestructura de red para una empresa global y debe lidiar con multas considerables si no se cumplen los SLA. Los SLA establecen tiempos de respuesta de servicio específicos con respecto a la aceptación de tickets abiertos, la respuesta y la resolución de problemas de red. El equipo de TI subcontratado también es responsable de implementar actualizaciones y proyectos de infraestructura sin causar tiempo de inactividad no planificado.
¿Puede el mismo enfoque de resolución de problemas cumplir con los acuerdos de nivel de servicio actuales?
Los SLA se basan en tiempos de respuesta rápidos que desafían las técnicas tradicionales de solución de problemas. Con el tiempo en marcha, los ingenieros de redes a menudo deben presentar una hipótesis basada en evidencia limitada. Por lo general, pasan una cantidad considerable de tiempo recopilando y analizando datos solo para determinar un lugar para comenzar a solucionar problemas. Sin herramientas que automaticen y aceleren el proceso, el ingeniero a menudo se ve obligado a utilizar procedimientos manuales que consumen mucho tiempo, como iniciar sesión en muchos dispositivos hasta que se pueda aislar el problema.
En realidad, resolver un problema es solo el 20% de la resolución de problemas. El otro 80 % se dedica a descubrir qué está causando el problema en primer lugar.
Estos mismos procedimientos manuales y esfuerzos de solución de problemas también pueden aplicarse a las actualizaciones de infraestructura y las implementaciones de proyectos, especialmente cuando algo sale mal. El equipo de red no solo tiene que probar actualizaciones complejas sin el equipo de laboratorio de pruebas costoso y necesario, sino que también debe comprender el impacto de los cambios propuestos y lo que podría salir mal durante la actualización. Tener la capacidad de ejecutar diferentes escenarios antes de la actualización o la implementación del proyecto es invaluable.
Cuento desde las trincheras: solución manual de problemas de configuración de vPC
Durante mi conversación con mi amigo, habló sobre los detalles de un proyecto de actualización de conmutador reciente que implementaron en su centro de datos. Estaban implementando múltiples racks de nuevos switches Cisco Nexus y configurando canales de puertos virtuales (vPC). Un vPC permite que dos enlaces conectados a dos conmutadores Nexus diferentes aparezcan como un solo canal de puerto para el tercer dispositivo. Proporciona muchos beneficios; algunos incluyen el uso de todo el ancho de banda de enlace ascendente disponible, una topología sin bucles y sin puertos bloqueados por el protocolo de árbol de expansión.
En la noche de la ventana de cambio, el equipo implementó la solución diseñada pero tenía una capacidad limitada para probar la solución antes de implementarla en el entorno de producción. El diseño involucró la configuración de un ID de dominio de vPC diferente por par de conmutadores Nexus 9K, numerosos vPC y la configuración de canales de puertos para cada par de conmutadores. La implementación pareció ir bien y todos se fueron a casa por la noche.
Al día siguiente se inundaron de entradas. Las cosas que funcionaban el día anterior ya no funcionaban. A pesar de que sabían lo que había cambiado y dónde concentrar sus esfuerzos, debido a la magnitud de los cambios realizados la noche anterior, había muchas variables que observar.
La cantidad de esfuerzo manual requerido por los ingenieros para ejecutar la serie de comandos contra todos los interruptores podría llevar horas. NetBrain es capaz de optimizar todo el flujo de trabajo de solución de problemas y completar las tareas en segundos.
Este era un centro de datos grande e implicó una gran cantidad de resolución de problemas manual, iniciar sesión en todos los nuevos conmutadores y ejecutar una serie de comandos. Descubrieron varios problemas de configuración. Un par de conmutadores Nexus no tenían configurado el mismo ID de dominio de vPC y otro par de conmutadores tenía un problema de coherencia de configuración de tipo 1.
Mostrar vpc de configuración en ejecución muestra la configuración en ejecución para todos los canales de puerto virtual. Mostrar resumen vpc muestra información breve sobre el canal del puerto virtual, como el ID de dominio de vPC, el estado del enlace del par y las comprobaciones de coherencia de la configuración. Mostrar rol de vpc muestra el rol de vPC de los dispositivos del mismo nivel. Mostrar parámetros de consistencia de vpc muestra los parámetros que deben ser compatibles entre las interfaces del canal del puerto virtual. la palabra clave global se puede utilizar para mostrar todos los parámetros globales de tipo 1 en ambos lados del enlace de pares. Todas las configuraciones de tipo 1 deben ser idénticas en ambos lados del vPC peer link o no aparecerá. Mostrar resumen del canal del puerto muestra información sobre los canales del puerto.
Solución de problemas de vPC con automatización
Debido a la complejidad y el tamaño de la red, pude ver cómo esta empresa podría beneficiarse claramente de la aplicación de la automatización tanto a la resolución de problemas como a las implementaciones de nueva infraestructura. Este proyecto de actualización requirió una gran cantidad de solución de problemas manual y esfuerzo para identificar la multitud de problemas. NetBrain podría haberse utilizado para señalar un entorno de laboratorio para probar mejor el impacto de los cambios propuestos y podría haber identificado problemas imprevistos.
NetBrainLa plataforma de automatización de brinda a los ingenieros una visibilidad de extremo a extremo en sus entornos al descubrir la red de manera inteligente y mediante el uso de Dynamic Maps. Sus runbook La tecnología acelera la solución de problemas mediante la ejecución de acciones llamadas Qapps para encontrar problemas de configuración, y el runbook trabaja desde un Dynamic Map. La cantidad de esfuerzo manual requerido por los ingenieros para ejecutar la serie de comandos contra todos los interruptores podría llevar horas. NetBrain es capaz de optimizar todo el flujo de trabajo de solución de problemas y completar las tareas en segundos.
En la captura de pantalla a continuación, puede ver el Dynamic Map de la red descubierta y la runbook se utiliza para recopilar información de configuración de vPC.
A Dynamic Map recupera y visualiza automáticamente toda la configuración de vPC en segundos.
A continuación, verá los resultados de uno de los comandos CLI ejecutados y lo fácil que es agregar comandos CLI adicionales que desee ejecutar en todos los conmutadores.
En lugar de recopilar datos CLI un comando a la vez, conmutador por conmutador, puede recopilar automáticamente información de configuración de vPC al instante.
Aquí, se muestran los resultados del estado de vPC y se pueden abrir otros gráficos relevantes para ver información adicional.
Y visualice los resultados de los comandos CLI automatizados en contexto directamente en el mapa, con enlaces de un solo clic a otros datos relevantes.
Conclusión
Los SLA son cada vez más estrictos cada día. Cuando hay un problema de red que amenaza estos SLA estrictos, literalmente, cada minuto cuenta. Sin embargo, la mayor parte de nuestro tiempo de solución de problemas todavía se dedica a tratar de identificar y aislar el problema "a mano". Hoy en día existe una solución de automatización que le brinda un punto de partida para resolver el problema, una solución que brinda la inteligencia CLI profunda que necesita, solo en segundos en lugar de horas.
¿Quieres descubrir cómo NetBrain se puede utilizar o aplicar dentro de su infraestructura? ¿Por qué no aprovechar un servicio gratuito? demostración para ver por ti mismo? Entonces, ¿por qué no comenzar a ahorrar tiempo, eliminar el error humano y, lo que es más importante, reducir el resultado final?
Además, echa un vistazo a estos blogs relacionados: