Retour

Pourquoi l'automatisation du diagnostic des problèmes est si difficile

by Lingping Gao 7 Mar 2022

Sur Décembre 7e, En 2021, Amazon AWS a connu une panne majeure qui a commencé par une perturbation en Virginie du Nord et s'est rapidement propagée dans tout le pays. Avant longtemps, de nombreux sites commerciaux tels que Google, Netflix, DoorDash, Southwest Airlines ont été touchés par la panne. Au plus fort de celui-ci, plus de 600 personnes d'AWS étaient sur un pont de conférence téléphonique pour résoudre le problème. La panne a duré plus de 8 heures. Pensez aux implications commerciales à long terme d'une panne de 8 heures.

Pour le mois, AWS a continué avec 2 autres pannes.

Cela soulève la question: peut-il être mieux?

Ça peut. AWS est en fait l'un des réseaux les plus automatisés au monde, mais cette panne, basée sur la résumé post-mortem par AWS, a mis tant de temps à s'isoler parce que la panne elle-même a eu un impact sur son accès à la capacité de diagnostic automatisé.

Dans notre monde informatique moderne, le diagnostic des problèmes doit être automatisé, même si c'est vraiment difficile à faire. Une enquête de 2021 par NetBrain à des centaines de nos clients a révélé que 2/3 de ces ingénieurs réseau n'ont aucune capacité d'automatisation lors du dépannage. Qu'est-ce qu'ils utilisent? L'ancienne console d'interface de ligne de commande. Ce qui souffre, c'est le temps nécessaire pour réparer et les pannes prolongées, ainsi que des impacts à plus long terme sur la satisfaction et la fidélisation des clients, les évaluations, la réputation, etc.

Pour les entreprises qui aspiraient à tirer parti de l'automatisation pour le diagnostic des problèmes, le parcours a été très difficile. Les outils RCA (analyse des causes profondes) ont attiré beaucoup de regards il y a 20 ans, mais les résultats étaient loin d'être satisfaisants. La plupart des innovateurs ont été absorbés par les grands acteurs des solutions informatiques et ont tout simplement stoppé toute innovation supplémentaire. Plus récemment, les solutions AiOps tentent de combler ce vide avec une approche de boîte noire. Toutes les solutions AiOps tirent parti de l'apprentissage automatique ou des fonctions d'IA traditionnelles basées sur les statistiques pour découvrir les causes profondes à partir de grandes quantités de données machine. Mais pour la plupart des problèmes informatiques, un ensemble de données propres est très difficile à trouver, en plus de nombreux autres défis, y compris un doctorat pour faire fonctionner un tel outil. Comme l'un des NetBrainLes clients de l'ont dit lors de la discussion de leurs premiers efforts avec AIOps, ils ont attendu 6 mois pour voir leur premier problème diagnostiqué via leur outil AiOps, et c'était un problème très simple. (Le nom de l'outil est omis ici pour éviter toute confusion)

Non sans essayer, l'automatisation du diagnostic des problèmes reste le plus grand défi informatique non résolu aujourd'hui. NetBrain commencé à travailler sur ce problème il y a plus de 10 ans, en utilisant une approche Whitebox centrée sur Network Intent. La Next-Gen dite basée sur l'intention peut être connectée à la plupart des outils ITSM, ce qui lui permet de commencer à résoudre les problèmes dès qu'ils surviennent. Il peut résoudre plus de 95 % des problèmes de réseau affectant les systèmes informatiques et potentiellement impacter les applications métier des organisations, et contribue également à prévenir de nombreux problèmes récurrents. Dans les prochains blogs, nous expliquerons le fonctionnement interne de NetBrain's Intent-based automation système pour les réseaux hybrides plus en détail.

Services Connexes