Retour

Automatisation en quelques minutes : 10 principales évaluations pour prévenir les pannes

by Valérie Dimartino 11 avril 2024

Les temps d’arrêt coûtent cher. Plus de la moitié (54 %) des personnes interrogées dans le cadre de l'enquête 2023 sur les centres de données de l'Uptime Institute déclarent que leur dernière panne importante, grave ou grave a coûté plus de 100,000 16 $, et 1 % ont déclaré que leur dernière panne a coûté plus d'un million de dollars. 

La phrase du film Apollo 13, « L’échec n’est pas une option », est l’un des slogans cinématographiques les plus reconnaissables de tous les temps.

NetBrain Prévention des pannes pour la page d'inscription

Dans les opérations réseau, c’est le même état d’esprit. L’argent et la réputation sont en jeu. L'échec n'est pas une option.

Les données de l'Uptime Institute suggèrent que chaque année, il y a, en moyenne, 10 à 20 pannes informatiques ou événements de centres de données très médiatisés dans le monde qui entraînent des pertes financières graves ou graves, des perturbations des activités et des clients, une perte de réputation et, dans les cas extrêmes, une perte de vie.

Alors pourquoi sommes-nous toujours aussi vulnérables étant donné tous les réseaux de redondance qui y sont intégrés ? Pourquoi continuons-nous à nous appuyer autant sur des processus manuels et un dépannage réactif ? Les ingénieurs réseau passent d'innombrables heures à mettre en place les bases de la prestation de services, mais il n'y a que peu ou pas d'application régulière. Ce n'est que lorsqu'un problème est signalé que les rouages ​​du dépannage sont mis en mouvement (au ralenti).

La réponse est : nous ne sommes pas proactive assez. Cela est dû au manque d’attention accordée au secteur de l’automatisation des réseaux. Nous laissons les mêmes problèmes se reproduire encore et encore lorsque nous savons comment les résoudre, car nous ne disposons tout simplement pas des mécanismes nécessaires pour exploiter et appliquer automatiquement ces connaissances sur les réseaux hybrides.

Une panne majeure entraîne un changement chez Saudi Telecom (stc)

En 2021, une application critique chez stc a subi une interruption de service majeure. Il a fallu près d'un mois de dépannage au sein des opérations réseau, des serveurs, des applications et des équipes de sécurité pour identifier la cause et restaurer le service. Cette panne coûteuse a mis en évidence la nécessité d’une meilleure visibilité et d’une approche plus stratégique de la gestion des incidents. En conséquence, le CTO du groupe stc a plaidé en faveur d'une solution à l'échelle de l'organisation qui offre une visibilité de bout en bout et automatise la gestion des incidents sur l'ensemble de l'infrastructure et des applications.

Imaginez capturer l'expertise de vos ingénieurs et l'appliquer de manière proactive sur l'ensemble de votre réseau, sans codage. L'automatisation du réseau aide les opérations du réseau à réagir plus rapidement, mais elle n'est pas suffisamment avancée (alerte spoiler : jusqu'à aujourd'hui) pour appliquer ces connaissances de manière proactive et simple sur l'ensemble du réseau. Et si nous pouvions exploiter les vastes connaissances de nos ingénieurs réseau et les stocker pour les utiliser dans une plateforme d'automatisation ?

Chaque jour, les équipes d'exploitation des réseaux Evaluer le réseau pour la dérive, la conformité, la santé et le changement manuellement. Et si les ingénieurs pouvaient effectuer ces évaluations régulièrement à l’aide de l’automatisation ?

Services Connexes