Zurück

„Menschliches Versagen“ ist ein großer Eimer

by Mark Harris 18. Nov 2021

Wir alle verwenden den Begriff „menschliches Versagen“ als Sammelbegriff, da er sich auf die Ursache von Ausfällen und Problemen mit der Dienstverfügbarkeit bezieht. Wir denken normalerweise an einen Bediener, der die falsche Taste auf einer Tastatur drückt, was, wie wir alle wissen, katastrophal sein kann, aber lassen Sie uns dies in einen größeren Kontext stellen, bevor diese Tastaturbilder in unseren Köpfen zu tanzen beginnen.

Menschliche Fehler treten in vielen Formen auf und können viel früher beginnen als der Moment, in dem ein Vorfall beginnt. (Pause und denke einen Moment darüber nach). Tatsächlich hat jeder, der an der Bereitstellung von Informationstechnologien beteiligt ist, unterschiedliche Hintergründe, Perspektiven und Wissens- und Erfahrungssätze. Und für jede anstehende Aufgabe kann der Ansatz jedes Einzelnen sehr breit gefächert sein. Dies schafft die Möglichkeit für menschliche Fehler an einer Vielzahl von Stellen, von denen einige offensichtlich sind und andere weniger häufig diskutiert werden. Diese Bandbreite menschlicher Fehlerquellen muss bei der Gestaltung eines strategischen Betriebsplans sorgfältig berücksichtigt werden.

Lassen Sie uns einige der spezifischen Probleme untersuchen, die das Risiko von Ausfällen erhöhen, die durch menschliches Versagen aufgedeckt werden können:

  • Hardware- oder Softwareeignung im Laufe der Zeit – Dies ist eine oft übersehene Problemquelle, da die Auswahl von Hardware und Software zu einem einzigen Zeitpunkt erfolgt, aber wenn eine Infrastruktur wächst, sich verändert und ändert, sind diese Entscheidungen möglicherweise nicht mehr gültig. In den meisten Fällen gibt es einen erheblichen Teil einer Infrastruktur, die selten (wenn überhaupt) neu bewertet wird, um die Eignung für den sich ändernden Job zu bestätigen. Der menschliche Fehler besteht nicht darin, jede Komponente alle ein oder zwei Jahre neu zu bewerten, um zu bestätigen, dass die Funktion immer noch so gehandhabt wird, wie es das Unternehmen erfordert.
  • Personalverfügbarkeit oder Qualifikationspakete – Infrastrukturen sind kompliziert und werden immer komplizierter. Der Standort und die Menge der Ressourcen sowie die Art der Fähigkeiten, die sie besitzen müssen, können entmutigend sein, um an Ort und Stelle zu bleiben. Bei all dem Druck, den die IT-Organisation hat, innovativ zu sein und neue Kapazitäten in Betrieb zu nehmen, kommt es oft zu Verzögerungen beim Aufbau der erforderlichen Support-Organisation, deren Betrieb und Support. Der menschliche Fehler besteht darin, neue Infrastrukturen ohne einen endgültigen 100%-Supportplan aufzubauen, der bei jeder Änderung aktualisiert werden muss.
  • Gerätekonfigurationen – Es gibt zahlreiche Möglichkeiten, eine physische und logische Infrastruktur aufzubauen. Und diese Infrastruktur umfasst zwei Domänen: die Einrichtung selbst, die Strom und Kühlung bereitstellt, zusammen mit den aktiven Komponenten, die Rechenleistung und Konnektivität bereitstellen. Im Zeitalter der Software, die alles definiert, sind viele Gerätekonfigurationen möglicherweise suboptimal, funktionieren aber unter eingeschränkten Bedingungen einwandfrei und verursachen nur unter Stress oder höherer Last Probleme. Der menschliche Fehler kann gefunden werden, wenn Konstrukteure die Notwendigkeit übersehen, den Kontext und die „normalen“ Betriebsbedingungen für jede Komponente festzulegen und wie sich diese Komponenten über den Bereich der Betriebsbedingungen hinweg verhalten.
  • Softwarelizenzierung – Probleme mit der Softwarelizenzierung verursachen häufiger Probleme, als Sie vielleicht denken. Am offensichtlichsten wird es sein, wenn eine Lizenz abläuft, aber es können auch Kapazitäts- oder Nutzungsbeschränkungen sein. Die meisten von uns haben Erfahrung mit SLL-Zertifikaten oder Domänen, die ablaufen, was alle Arten von Kaskadeneffekten verursacht. Der menschliche Fehler rührt von einem Mangel an Disziplin und Prozessen her, um die Geschäftsparameter für alle lizenzierten Nutzungen festzulegen und die Lizenzbedingungen und den Umfang regelmäßig zu überprüfen.
  • Sicherheit und Zugriff – Produktionsinfrastrukturen sind oft in Betrieb, nur um Dienstverschlechterungen oder vollständige Ausfälle aufgrund von Sicherheitsverletzungen oder Reaktionen darauf zu erfahren. Die Sicherheitsprobleme wirken sich zwar auf die Leistung der Servicebereitstellung aus, sind aber behebbar. Der menschliche Fehler gibt die Verantwortung für die Servicebereitstellung aufgrund bestimmter Ereignisse von Drittanbietern auf. IT-Experten müssen IMMER für die Servicebereitstellung verantwortlich sein und über umfassende Support- und Notfallpläne für diese Art von Szenarios verfügen.
  • Konfiguration von Geräteparametern – Wenn Sie 100 Personen zu menschlichen Fehlern befragen würden, würden mehr als zwei Drittel sofort Konfigurationsfehler als Ursache für die meisten Ausfälle identifizieren. Es ist leicht vorstellbar und kommt oft vor, dass ein Bediener eine einzelne Ziffer falsch eingibt, was zu katastrophalen Ergebnissen führt. Der menschliche Fehler ist hier zweifach; 1) der Bediener hat einen Parameter, der Teil des kritischen Informationspfads war, falsch eingegeben oder missverstanden, und 2) der Bediener wurde beauftragt, geschäftskritische Probleme manuell zu lösen, anstatt bekannte Arbeitsverfahren zu nutzen, die getestet wurden, QA' d und nachweislich die gewünschten Ergebnisse liefern.

Sie können also sehen, dass es viele Ursachen für Ausfälle und Serviceverschlechterungen gibt, die normalerweise nicht im Zusammenhang mit menschlichem Versagen diskutiert werden, aber tatsächlich sind sie es. Der menschliche Fehler selbst kann Monate oder Jahre vor einem Ausfall passiert sein, und erst wenn man ihn über einen längeren Zeitraum betrachtet, kommen diese Details zum Vorschein.

Was kannst du tun? Beginnen Sie damit, Ihre eigene Liste wie oben zu erstellen. Machen Sie sich bewusst, dass jede Partei in der Mischung einen Lebenszyklus hat und dass alle Aspekte dieses Lebenszyklus unterstützbar und verteidigbar sein müssen. Jede schwache Verbindung erhöht das Risiko für die Produktion. Und am wichtigsten ist, dass Sie jeden Punkt auf der Liste einzeln durcharbeiten, um ihn zu optimieren, einen Supportplan neu zu formulieren, Notfallpläne zu erstellen, Betriebsprozesse hinzuzufügen usw. Arbeiten Sie mit den Designern von Einrichtungen und Unternehmensanwendungen zusammen, um den erwarteten Bereich des normalen Betriebs besser zu verstehen Bedingungen. Sprechen Sie mit den Eigentümern der Geschäftsbereiche über die benötigte Kapazität im Laufe der Zeit und ordnen Sie sie den Aktualisierungszyklen der Geräte zu. Sprechen Sie mit den Geschäftsinhabern und sehen Sie sich die heutigen Arbeitsbelastungen an und projizieren Sie dann die erwarteten Belastungen in 2 oder 3 Jahren. Und schließlich investieren Sie in Management-Tools, die die Leistung der Infrastruktur kontinuierlich und proaktiv bestätigen und dazu beitragen, dass alle erforderlichen Vorgänge konsistent und wiederholbar sind, unabhängig von den beteiligten Mitarbeitern im Laufe der Zeit.

Fordern Sie vor allem Ihre Teams heraus, ihre Arbeit zu verteidigen, ihre Pläne zu verteidigen, ihre Notfallpläne zu verteidigen … in großem Maßstab. Denken Sie daran, dass die Infrastrukturen immer größer werden, daher ist die vertretbare Problemlösung eine Skalierung. Durch die Betrachtung des „größeren Eimers“ wird der IT-Betrieb zu einem strategischen Partner des Unternehmens und nicht mehr zu einem taktischen Anbieter.

Verbunden