戻る

「ジャスト イン タイム」ネットワーク トラブルシューティングで断続的な問題に対処

著者注 by 2018 年 7 月 11 日

あなたがほとんどのネットワーク エンジニアと同じように、最もイライラするタスクのリストの一番上にあるのは、もはや関係のない問題をネットワークでトラブルシューティングしようとすることです。 トラブル チケットを開きますが、最初に問題を引き起こした状況が変化し、問題が消え去ったように見えます。 私たちにできる最善のことは、チケットを NTF (問題が見つからない) または CND (複製できない) としてクローズし、再発しないことを願うことです。 (スポイラー アラート: それは、おそらく最悪の場合に発生します。) そして、SDN が「現実のものになる」と、これらの一時的な断続的な問題がさらに前進するだけです。

これらの断続的な問題を再現することはほとんど不可能であり、幸運にもそれらをリアルタイムで「ライブ」で見る必要があります。 しかし今では NetBrain 問題が発生した瞬間にその自動診断をトリガーできます — 「ジャスト イン タイム」自動化によるネットワーク トラブルシューティング。

実際、断続的な問題を修正するのは非常に簡単です。 しかし、それを固定することはできません。

 

ランディング ページの自動「レベル 0」診断をトリガーする

NetBrain Integrated Edition では、他のネットワーク管理システム (ServiceNow、IDS/SIEM、Splunk、24 時間年中無休の監視ソリューションなど) との API 統合が導入されているため、アラートが発生するとすぐに、問題のある領域のパスが自動的にマッピングされます。 実行可能ファイル Runbooks 即座にアクションを開始して、イベントに関するすべてのデータと分析をリアルタイムで取得します。 これを「ジャスト イン タイム」自動化と呼んでいます。 イベントが開催されるので、 問題に関して必要なすべてのデータが自動的に収集、分析され、コンテキスト内で視覚化されます。 Dynamic Map. 人間の関与は必要ありません。 インシデントに対応すると、すべてがあなたを待っています。

「ジャスト イン タイム」自動化の ABC

イベントの瞬間に、「ジャスト イン タイム」の自動化により、次の XNUMX つの異なるアクションが実行されます。

  1. 問題領域のマップが動的に作成されます。
  2. 「レベル 0」の診断を実行するために、事前に定義された一連の手順が自動的に実行されます。

Dynamic Map■ 問題の範囲を自動的に定義

24 時間年中無休の監視ツールが、アプリケーションの実行速度が遅いことを夜通し検出し、ServiceNow チケットが作成されたとします。 ServiceNow チケットが自動的にトリガーされる NetBrain アプリのトラフィックがウェブ サーバーとデータベース サーバーの間を流れていたパス、およびその間のすべてのホップをマッピングします。 その瞬間に. これはあなたの平均ではありません traceroute: NetBrain Web サーバーのデフォルト ゲートウェイにログインしてパスの分析を開始します。ルーティング テーブルから始めて、高度なパラメータ (VRF、ACL、PBR、NAT など) を分析します。 また、逆フロー パスも表示されます。これは、アプリケーション トラフィックが非対称である場合に重要な洞察です。 これにより、正確な スコープ ネットワークが動的に変更された後ではなく、リアルタイムで問題を解決します。 traffic path 何らかの理由で、または以前のトラブルシューティング担当者がアプリケーションの再マッピングを試みた後。 マップの URL は、ServiceNow チケットに直接書き込まれます。 ワンクリックで、 Dynamic Mapこれは、監視ソリューション (または API を使用するその他のシステム) からの追加のパフォーマンス情報で強化できます。 すべてが XNUMX 枚のガラスに表示されます。

サービスナウチケット

「ジャスト イン タイム」のネットワーク トラブルシューティングでは、アラートが発生したときにその場にいなくても、通常と同じ手順が自動的に実行されます。

 

Runbook問題を診断するための手順の自動実行

同時に — 繰り返しますが、自動的に — Executable Runbook パフォーマンス データを収集し、複数のベンダーの複数のデバイスで CLI コマンドを一度に発行して、速度低下の原因を正確に把握するために必要な関連データを取得します。 アラートが送信されたときのメモリと CPU の使用率、およびインターフェイスのステータスが表示されます。 の Runbook インターフェイスの衝突と CRC エラーを自動的に検索します。 traffic path、速度またはデュプレックスの不一致、OSPF ID の重複、BGP ネイバー接続の AS 番号の設定ミスなどを確認します。最初の質問は常に「何が変わったのか」です。 a Runbook 問題が検出された時点と以前の時点 (アプリが正常に実行されていた時点) との間で、トポロジとルーティングの比較分析を実行します。 すぐに使用できる数百の自動診断があり、カスタマイズできます。 Runbook コードを XNUMX 行も書かずに、ほぼすべてのデータ収集または分析タスクを実行できます。

(Matt Speidel は、 どのように実行可能か Runbook仕事.)

この Runbook は、アラートが発生したときにその場にいなくても、通常と同じネットワーク トラブルシューティング手順を自動的に実行します。また、すべての診断結果は、 Runbook 地図に添付されています。 トラブル チケットのマップの URL をクリックするだけで、データの収集と分析はすべて完了しています。

私が知っているシニア ネットワーク マネージャーは、断続的な問題は特に断続的ではないと言いました。 それは私たちの意識だけです。 問題が発生した場合、それは再び醜い頭をもたげるか、ネットワーク内のどこかで発生する可能性があります。 NetBrain は、その自動化機能を活用できる新しい機能を導入しました。 継続的かつ積極的に 解決したばかりの問題を監視します。 言い換えれば、これらの不可解な断続的な問題は、既知の問題になります。

このイベント トリガーによる自動ネットワーク トラブルシューティングは、レベル 1 のエンジニアが問題の調査を開始する前に、すべてのデータ収集、分析、視覚化が完了しているため、「レベル XNUMX」の診断と考えることができます。 実際、自動化により、人間が介入する前にこのすべての作業が処理されます。

見えないものは修正できません。 今日の急速に変化するネットワーク環境では、トラブルシューティングを行うまでに問題が解消されていることが非常に多くあります。 通常、断続的な問題を実際に修正するのは非常に簡単です。 しかし、それを固定することはできません。 そこで「ジャストインタイム」自動化の出番です。

 

関連記事