Retour

"L'erreur humaine" est un gros seau

by Mark Harris Le 18 novembre 2021

Nous utilisons tous le terme « erreur humaine » comme un fourre-tout car il se rapporte à la cause des pannes et des problèmes de disponibilité des services. Nous pensons généralement à un opérateur appuyant sur la mauvaise touche d'un clavier, ce qui, nous le savons tous, pourrait être désastreux, mais plaçons cela dans un contexte plus large avant que ces images de clavier ne commencent à danser dans nos têtes.

L'erreur humaine se présente sous de nombreuses formes et peut commencer bien avant le moment où un incident commence. (Faites une pause et réfléchissez-y un instant). En fait, toutes les personnes impliquées dans la fourniture des technologies de l'information ont des antécédents, des perspectives et des ensembles de connaissances et d'expériences différents. Et pour chaque tâche à accomplir, l'approche de chaque individu peut être très large. Cela crée une opportunité d'erreur humaine dans une litanie d'endroits, certains évidents et d'autres moins fréquemment discutés. Cette gamme de sources d'erreurs humaines doit être soigneusement prise en compte lors de la conception d'un plan d'opérations stratégiques.

Examinons quelques-uns des problèmes spécifiques qui augmentent le risque de pannes pouvant être exposées par une erreur humaine :

  • Adéquation du matériel ou des logiciels au fil du temps - Il s'agit d'une source de problèmes souvent négligée car la sélection du matériel et des logiciels se fait à un moment donné, mais à mesure que toute infrastructure se développe, se transforme et change, ces choix peuvent ne plus être valides. Dans la plupart des cas, une partie importante d'une infrastructure est rarement (voire jamais) réévaluée pour confirmer son adéquation à l'évolution de la tâche à accomplir. L'erreur humaine ne consiste pas à réévaluer chaque composant tous les ans ou tous les deux ans pour confirmer que la fonction est toujours gérée comme l'entreprise en a besoin.
  • Disponibilité du personnel ou ensembles de compétences - Les infrastructures sont compliquées et le deviennent de plus en plus. L'emplacement et la quantité de ressources ainsi que les types de compétences qu'ils doivent posséder peuvent être décourageants à maintenir en place. Ainsi, avec toutes les pressions exercées sur l'organisation informatique pour innover et mettre en ligne de nouvelles capacités, il y a souvent un retard dans la mise en place de l'organisation de support requise pour l'exploiter et la prendre en charge. L'erreur humaine est de construire de nouvelles infrastructures sans un plan de support définitif à 100% qui doit être mis à jour à chaque changement.
  • Configurations d'équipement – ​​Il existe de nombreuses façons de créer une infrastructure physique et logique. Et cette infrastructure comprend deux domaines : l'installation elle-même qui fournit l'alimentation et le refroidissement, ainsi que les composants actifs qui fournissent l'informatique et la connectivité. À l'ère du tout défini par logiciel, de nombreuses configurations d'équipement peuvent être sous-optimales, mais fonctionnent parfaitement bien dans des conditions limitées, ne causant que des problèmes en cas de stress ou de charges plus élevées. L'erreur humaine peut être trouvée lorsque les concepteurs négligent la nécessité d'établir le contexte et les conditions de fonctionnement « normales » pour chaque composant, et comment ces composants se comportent sur la plage de conditions de fonctionnement.
  • Licences logicielles – Les problèmes de licences logicielles créent des problèmes plus courants que vous ne le pensez. Le plus évident sera l'expiration d'une licence, mais il peut également s'agir de restrictions de capacité ou d'utilisation. La plupart d'entre nous ont des certificats SLL ou des domaines qui expirent, ce qui provoque toutes sortes d'effets en cascade. L'erreur humaine découle d'un manque de discipline et de processus pour établir les paramètres commerciaux pour toutes les utilisations sous licence, en vérifiant régulièrement les conditions et la portée de la licence.
  • Sécurité et accès - Tant de fois, les infrastructures de production seront opérationnelles, pour subir des dégradations de service ou des pannes complètes en raison d'intrusions de sécurité ou de réponses à celles-ci. Bien que les problèmes de sécurité aient un impact sur les performances de la prestation de services, ils peuvent être résolus. L'erreur humaine consiste à renoncer à la responsabilité de la prestation de services en raison de certains événements de tiers. Les professionnels de l'informatique doivent TOUJOURS posséder leur propre prestation de services et doivent disposer d'un support complet et de plans d'urgence pour ces types de scénarios.
  • Configuration des paramètres de l'équipement - Si vous deviez interroger 100 personnes sur les erreurs humaines, plus des deux tiers identifieraient immédiatement les erreurs de configuration comme étant la cause de la plupart des pannes. Il est facile d'imaginer et souvent le cas qu'un opérateur entre un seul chiffre de manière incorrecte, ce qui provoque des résultats catastrophiques. L'erreur humaine est double ici; 1) l'opérateur a mal saisi ou mal compris un paramètre qui faisait partie du chemin critique de l'information, et 2) l'opérateur a été chargé de résoudre manuellement les problèmes critiques de la mission, plutôt que de tirer parti des procédures de travail connues qui avaient été testées, QA' d et prouvé qu'il donne les résultats souhaités.

Vous pouvez donc voir qu'il existe de nombreuses causes de pannes et de dégradations de service qui ne sont pas couramment discutées dans le contexte de l'erreur humaine, mais en fait, elles le sont. L'erreur humaine elle-même peut s'être produite des mois ou des années avant qu'une panne ne se produise, et ce n'est qu'en examinant une période plus longue que cette surface détaillée.

Que pouvez-vous faire? Commencez par créer votre propre liste comme celle ci-dessus. Réalisez que chaque partie dans le mélange a un cycle de vie et que tous les aspects de ce cycle de vie doivent être supportables et défendables. Tout maillon faible augmentera le risque pour la production. Et surtout, vous devez travailler individuellement sur chaque élément de la liste pour l'optimiser, reformuler un plan de support, créer des plans d'urgence, ajouter des processus opérationnels, etc. Travaillez avec les installations et les concepteurs d'applications d'entreprise pour mieux comprendre leur plage de fonctionnement normal les conditions. Discutez avec les propriétaires de secteurs d'activité de la capacité nécessaire au fil du temps et associez-la aux cycles de renouvellement des équipements. Parlez aux propriétaires d'entreprise et examinez les charges de travail d'aujourd'hui, puis projetez les charges prévues dans 2 ou 3 ans. Et enfin, investissez dans les outils de gestion qui confirment de manière continue et proactive les performances de l'infrastructure et qui contribuent à rendre cohérentes et reproductibles les opérations nécessaires, quels que soient les membres du personnel impliqués dans le temps.

Surtout, mettez vos équipes au défi de défendre leur travail, de défendre leurs plans, de défendre leurs plans d'urgence… à grande échelle. N'oubliez pas que les infrastructures s'agrandissent, donc la résolution de problèmes défendables est à grande échelle. En examinant le « Bigger Bucket », les opérations informatiques deviendront un partenaire stratégique de l'entreprise, plutôt qu'un fournisseur tactique.

Services Connexes