ネットワーク障害における原因切り分け手順 ツール活用などポイントを紹介
障害発生時に具体的な原因箇所を突き止めるために必要となるのが切り分け作業です。素早く正確な作業が必要となる障害対応においては、二次災害を防ぐためにもドキュメントの整備やツールの活用が有効となるでしょう。この記事では、ネットワーク障害における作業フローや実施時のポイントについてご紹介します。
ネットワーク障害における切り分けとは?
ネットワーク障害が発生した場合、「切り分け」と呼ばれる作業を行うことになります。なぜ切り分け作業が必要となるのでしょうか。まず初めに、ネットワーク障害における切り分けの必要性について紹介します。
ネットワーク障害が発生する理由は様々
PCが起動しない状況においては、ほとんどの場合、その原因はPCにあります。一方で、様々な機器が通信を行うことで処理を実現するネットワークにおいては、「ネットワークがつながらない」という事象に対して原因は様々です。「ケーブルが断線している」「ルーターの設定が間違っている」「通信先のサーバーに問題がある」など、多種多様な原因により障害が発生します。
原因を特定するためには切り分け作業が必要に
よって、ネットワーク障害が発生した場合に原因の特定と復旧対応を行うためには、切り分けにより障害箇所を特定する必要があります。原因がケーブルにあるのか、ルーターにあるのか、はたまたアプリケーションレベルで問題が起きているのかについては、個別に可能性を潰していかなければなりません。
ネットワーク障害における切り分け作業には、ネットワークの知識や状況に応じた切り分け手順の経験値など、専門的な知見が必要です。また、切り分け作業を実施する際には関連ドキュメントや製品マニュアルなど様々な情報を収集しながら行う必要もあります。実施においては、一定以上のスキルが求められる作業といえるでしょう。
障害時の切り分け作業フロー
以下では、ネットワーク障害における切り分け作業のフローを紹介します。
0. 事実確認・規定の手順による対応
切り分けを行う前に、前提として事実確認を行うことが重要です。一般的にシステム運用管理においてはチケット管理システムなどによって障害の管理を行いますが、自身が担当者となった障害についてはまず既存ドキュメントの確認から始めます。
ネットワーク構成図を確認しシステムの全体像を改めて把握するほか、バッチ処理スケジュールを確認し直前にどのような処理が行われていたかを確認します。直前に何かオペレーションを実施したのかについても重要な確認ポイントです。これは、ネットワーク障害はルーターやスイッチなどの設定ミスによって起きることも多いためです。直前に行われた作業が問題解決の糸口となることもあるため、可能性のひとつとして押さえておくべき情報となります。
これらを実施したうえで、障害時の作業手順書として作業内容を定めている場合には、まずその手順に沿って初期の対応を行います。この対応によりネットワークが復旧すれば問題ありませんが、それでもシステムが復旧しなければ原因の切り分け作業が必要となります。
1. 疎通可能範囲の確認
まずは、通信の疎通可能範囲を確認します。Pingコマンドを利用して疎通を確認する方法が一般的です。
⓪ここでは、支社PCから本店ファイルサーバーへの通信が行えなくなった場合を想定します。この場合、以下のように疎通可能範囲を確認していきます。
①アクセスを行うPC自体に問題がないことを確認するため、ループバックアドレスにより自身のPC宛てにPingを実行する。
②PCが接続しているスイッチやルーターに対してPingを実行する。
③PCから本店のルーターに対してPingを実行する。
④PCから本店のファイルサーバーに対してPingを実行する。
このようにだんだんと範囲を広げて疎通可否確認することで、効率的な確認が可能となります。PCからファイルサーバーへのTracerouteによる通信経路の確認でもよいでしょう。
2. 機器の稼働状況確認
疎通可能範囲の確認により、疎通が不可能となっている領域で何らかの問題が発生していることが確認できます。疎通が不可能となっている領域を特定したら、次に、問題の領域における物理的な機器の状態を把握します。
たとえば、支店PCからスイッチまでは通信が可能であるものの、スイッチとルーターの間で通信が不可能である場合、その領域で問題が発生していると考えられます。この場合、まずはスイッチとルーターの間のケーブルは断線していないか、ルーターの電源は入っているか、ルーターは正しく起動しているかなどを確認していきます。
3. データリンク層・ネットワーク層レベルでの状況確認
機器に電源が入っており、断線もない場合は、スイッチなどのデータリンク層やルーターなどのネットワーク層レベルで問題が発生している可能性があります。
上記の例において、ルーター周りに問題があることが想定される場合には、次にルーターの設定や稼動状況を確認します。ルーティングテーブルやVLANの設定は正しくできているか、コンフィグに誤りはないかといった点や、機器が認識しているハードウェアの状態、起動状況、エラーの発生状況などをチェックします。
障害が起きている箇所をある程度特定したら、その障害が発生している根本的な原因を突き止めます。この時、ログ情報やエラーメッセージなどが有用な情報となります。
ログなどを基に、自社で作成している運用管理ドキュメントや、機器やサービスの公式ドキュメントなどを参考に、障害が起きている理由を把握していきます。
この手順により、たとえば「ルーターの設定ミスにより支店から本店へのルーティングテーブルがうまく設定できていなかった」など、原因を特定することができます。
4. トランスポート層・アプリケーション層レベルでの状況確認
一方で、「同様に支社PCから本店ファイルサーバーが利用できない状況において、Pingにより疎通確認を行ったところ、疎通自体はできているケース」ではどのような問題が発生していると考えられるでしょうか。この場合、トランスポート層やアプリケーション層など、より高い階層で問題が発生している可能性があります。
このような場合には、以下のような確認を行うことで、原因を特定していきます。
- TCP/UDPでの通信ができているかを確認する。
- ファイアウォールなどの設定が正しくされているか確認する。
- ファイルサーバー自体が正常に動作しているかを確認する。
- ftpd、httpdなどのプロセスが動作しているかを確認する。
これらの確認により障害箇所を特定しつつ、ログなどを確認し根本的な原因を確認していきます。結果として、たとえば「Sambaなどのファイルサーバー機能を担うプロセスがダウンしていた」といった障害原因が明らかとなるでしょう。
5. 暫定的な障害復旧
障害原因を正確に把握できれば、適切な復旧対応を行うことができます。障害の理由を取り除くことで、システムを復旧させます。
もし、障害原因を完全に特定できない場合は、問題を緩和することで一時的な対応を行うことも検討します。たとえば、理由は分からないものの特定の処理が著しくネットワーク帯域を圧迫している場合は、その処理の重要度などを勘案した上で一時的に処理を停止させることも検討します。障害対応においては、何より早期にシステムを利用できる状態まで復旧させることが重要です。必要に応じて、暫定的な対応を選択していきます。
切り分け作業におけるポイント
以下では、切り分け作業におけるポイントをいくつか紹介していきます。
事前にドキュメントを整備する
障害時の対応は時間との戦いです。影響範囲にもよりますが、たとえばECサイトが含まれている場合、システムが停止している間は売り上げが発生しませんし、基幹系システムが含まれている場合、自社やサプライチェーンを構成する各社のビジネスがストップしてしまう事態にもなります。
障害時に迅速に対応を行うためのポイントとして、あらかじめ対応手順などを整理したドキュメントを整備することが挙げられます。ドキュメントを確認しながら対応を進めることで、対応速度や対応品質を高めることができます。切り分け作業を進めるにあたっても、ドキュメントによりシステムやネットワークの構成を把握することで、正確な対応につながります。
多くの場合、障害は監視ツールからのアラートにより検知されます。監視対象としている項目ごとに、アラートが上がった際にどのように状況を確認し、どのような手順で一次的な復旧を試みるかを整理しておくことが重要です。
二次災害を防ぐ
障害発生時に慌てて対応を行ってしまい、結果として事態を悪化させてしまうことも多くあります。このような二次災害を防ぐためには、上述したドキュメント化による定型的な対応に加えて、非定型的な対応を行う際には複数人での確認を行ったり、設定変更を実行する前に指さし確認を行ったり、復旧作業完了後に動作確認を実施することが重要となります。
切り分け作業においては、多くの場合、非定型的な作業となります。障害発生という焦りの生じる場面ですが、慎重かつ冷静に作業を進めていく必要があります。
対応の振り返りを行う
障害対応が完了した後に振り返りを行うことで、今後の運用管理の糧とすることができます。特に切り分け作業は非定型的な作業となりますので、その場その場での判断が必要です。後日その対応を振り返ることで、今後の対応をより優れたものとできるでしょう。
振り返りのミーティングを実施する場合には犯人捜しや謝罪の場とするのではなく、建設的かつ客観的な場とすることが重要です。怒られることが分かっていながら失敗を正直に報告する人は少ないです。失敗を責めずに、今後に生かせるようにチームメンバーの心理的安全性を確保することもポイントとなります。
素早い切り分けを実現する環境を構築する
切り分け作業においては、様々な原因を想定しながら情報を収集し、判断していく必要があります。この際、時間をかけずに効率的に情報を集めたり、定型的な確認作業を行ってくれたりするツールの活用が有効です。
たとえば、トポロジーマップを確認できる機能があれば、ネットワーク構成を視覚的に把握しながら切り分け作業ができます。また、ツール上でアプリからインフラまでの構成を把握できれば、障害発生個所の分析もしやすくなるでしょう。
手順書通りに進まない切り分け作業においては、これらの機能が役に立ちます。
ネットワーク障害の切り分けにも有効な監視ツール「LogicMonitor」とは
このように、ネットワーク障害における原因切り分けを効率的に行うためには、ツールの活用も重要です。当社は、ネットワーク障害の切り分けにも有効なSaaS型のIT統合運用監視サービス「LogicMonitor」を提供しています。
LogicMonitorは上述したトポロジーマップ機能を備え、障害の影響範囲や原因特定に活用することができます。また、障害の原因究明に有効なログ確認においても、高度なログ検索機能やログの可視化機能などによりサポートを行います。
加えて、より高度な分析機能であるAIOpsにより、根本原因分析を行うことも可能です。根本原因分析では、トポロジーマップに基づき依存関係のある障害にフラグ付けを行い、それらの障害を引き起こしている根本的な原因を突き止めることができます。これにより、対応すべき領域を素早く特定でき、AIOpsにより根本原因以外からのアラート通知を抑制することができます。
このように、切り分け作業に有効な機能を備えたツールを活用することで、確実かつ素早い対応の実現につながります。
まとめ
この記事では、ネットワーク障害における作業フローや実施時のポイントについてご紹介しました。障害時の切り分けはスキルが必要な作業ですが、現実的には経験が少ない担当者の方が実施しなければならないケースもあります。そのような場合でも、作業を支援してくれるツールにより、経験不足を補うことができるでしょう。