Regresa

Lecciones de la interrupción masiva de AWS en Amazon

by kelly.yue 22 de marzo, 2017

No es una noticia de última hora decir que los humanos no son perfectos. Sin embargo, muchas organizaciones confían en una expectativa poco realista de que sus equipos de TI nunca cometerán un error. De acuerdo con la investigación en curso de Uptime Institute, TI en realidad se está quedando atrás en el mantenimiento de los sistemas y servicios en funcionamiento, y se informan más interrupciones, cada una de mayor duración y mayor impacto negativo para el negocio. Y migrar sus servicios de TI a los proveedores de la nube NO es la respuesta.

Interrupción de AWS 1

El Interrupción de Amazon Web Services (AWS) en 2017 es un ejemplo perfecto. La histeria surge después de cualquier interrupción importante, y la presión ejercida sobre los equipos de TI en ese momento puede ser abrumadora para identificar y solucionar el problema rápidamente. Sin embargo, algo tan mundano como un error tipográfico puede ser la causa del problema. Un simple error humano y, sin embargo, causó estragos en Fortune 2000 a nivel mundial.

En el caso de Amazon, eso es exactamente lo que sucedió cuando un ingeniero trató de solucionar un problema con su sistema de facturación:

“Un miembro autorizado del equipo de S3 que usa un libro de jugadas establecido ejecutó un comando que estaba destinado a eliminar una pequeña cantidad de servidores para uno de los subsistemas S3 que es utilizado por el proceso de facturación S3. Desafortunadamente, se ingresó una de las entradas al comando incorrectamente y se eliminó un conjunto de servidores más grande de lo previsto”.

Como la mayoría de los errores humanos, este podría haberse evitado, y no solo con un poco más de atención al escribir. De hecho, se pueden realizar cambios en dispositivos individuales solo para darse cuenta de que los servicios de TI que atraviesan estos dispositivos se han visto afectados sin querer. En el mundo de las redes, el problema puede ser bastante agudo. Tradicionalmente, la ingeniería de redes ha requerido mucho trabajo manual, desde la recopilación de datos hasta la resolución manual de problemas. El trabajo manual, particularmente el trabajo manual tedioso, a menudo conduce a errores humanos. Y rara vez todas las aplicaciones y servicios que están involucrados en los dispositivos cambiados pasan por un control de calidad de manera proactiva para garantizar que estén completamente operativos. En el caso de AWS, un ingeniero estaba trabajando con un libro de jugadas establecido y cometió un simple error de escritura, pero es posible que el cambio se haya realizado correctamente, pero tuvo consecuencias no deseadas para los servicios de TI. Pasa todo el tiempo.

At NetBrain, hemos diseñado todo nuestro sistema de automatización de diagnóstico de problemas de red para ayudar a minimizar el trabajo manual tedioso e inconsistente al implementar la automatización de red a través de Executable Runbooks. Y al aprovechar nuestro modelo en tiempo real de la red y los resultados previstos esperados, podemos verificar que el cambio ha sido bueno para el negocio.

En lugar de depender de los esfuerzos tradicionales de base donde el conocimiento a menudo se encuentra en una hoja de papel o aislado en un equipo de expertos, los ingenieros de redes pueden codificar sus procesos probados de mejores prácticas en ejecutables que se pueden compartir con colegas y luego con una mínima intervención humana. El poder de intent-based automation va más allá de reducir el error. También aceleran el tiempo de resolución de problemas mientras distribuyen la carga de trabajo de tareas avanzadas entre varios miembros del equipo. Esto ayuda a reducir la dependencia excesiva del conocimiento tribal y crea una cultura de colaboración más sólida en toda la red, seguridad y change management equipos Es un medio para escalar el conocimiento y la experiencia en cualquier organización.

Digitalizar las mejores prácticas y automatizar su ejecución es la clave. Si AWS hubiera aprovechado algo similar a Executable Runbooks, es muy posible que la interrupción se haya evitado. En nuestro mundo, los equipos de red pueden crear, ejecutar y compartir archivos ejecutables fácilmente. Runbooks. Y con ellos, pueden solucionar problemas, diagnosticar la lentitud de la red, protegerse de manera proactiva contra la mala configuración y más, todo sin el temor de que la mujer de dedos gordos cante.

Aprender más sobre ejecutable Runbooks y cómo los ingenieros de redes pueden compartir conocimientos, reducir el trabajo manual y mejorar la red.

Relacionado: