メニュー
SaaSpresto株式会社はLogicMonitorの国内販売代理店です

MTTD(Mean Time To Detect/平均検出時間)とは?短縮のためのアプローチを解説

システム障害からの復旧にかかった時間を評価するためによく利用されているのがMTTRという指標です。一方で、システムのダウンタイムを短縮するためには、インシデントの発生から検知、調査、修正、確認などの個々の作業にかかる時間を短縮していく必要があります。この時、インシデントの発生をどれだけ早く認識できるかという観点で評価を行うための指標がMTTDです。

この記事では、MTTDの概要やその必要性に加え、MTTDを短縮していくためにはどのようなアプローチが有効なのかを紹介します。

目次

MTTDとは

まずは、MTTDの概要について簡単にご紹介します。

MTTDはインシデント管理における評価指標の一つ

MTTDとは「Mean Time To Detect」の略称であり、日本語では「平均検出時間」を意味する言葉です。「検出」時間という言葉のとおり、障害などのインシデントが発生した際に、管理者がそのインシデントを検出するまでの時間を表します。

インシデントの発生後、しかるべき対応を開始するためには、そもそもそのインシデントが発生していることに気づかなければなりません。MTTDは、この「気づき」に至るまでの時間を表すものとなります。

MTTDは、システムの運用管理の有効性を示す指標の一つです。MTTDが短ければ、迅速にインシデントを発見し、速やかに着手できていると評価できます。

MTTDの計算方法

MTTDは、以下の式で計算されます。

<MTTDの計算式>
MTTD=インシデント発生から検出までにかかった合計時間 / インシデントの発生件数

たとえば、以下のようにインシデントが発生した場合のMTTDは、(10分+5分+30分) / 3件で15分/件となります。

インシデントA:発生時刻10:20、検出時刻10:30、検出までの時間10分
インシデントB:発生時刻14:15、検出時刻14:20、検出までの時間5分
インシデントC:発生時刻16:30、検出時刻17:00、検出までの時間30分

MTTDという指標はなぜ必要なのか

インシデント管理に関する評価指標としては、MTTR(Mean Time To Repair:平均修復時間※)およびMTBF(Mean Time Between Failures:平均障害間隔)を用いるケースが多いのではないでしょうか。これらの指標と比較すると、MTTDは比較的新しい概念といえます。なぜMTTDという指標が必要なのでしょうか。以下では、MTTDを用いる理由やメリットについてご紹介します。

※MTTRは場合により「Mean Time To Recovery:平均復旧時間」もしくは「Mean Time To Resolve:平均解決時間」の意味で用いられることもありますが、本稿では「Mean Time To Repair:平均修復時間」の意味で用います。

「検知」の観点で詳細に評価するため

MTTDを利用する理由は、インシデントへの対応状況を、「検知」の観点でより詳細に評価するためです。

MTTRという指標では、インシデントを認識してから復旧までの時間を測定し、評価します。しかしながら、MTTRではインシデント管理において必要となる「検知」「調査」「復旧」など個々の作業の速さまでは評価できません。PDCAを回し、実践的な改善を図るためには、それぞれ細分化された部分の評価が必要となります。

MTTDはインシデントの検知までにフォーカスした指標として利用できます。

他の指標の併用も有効

インシデント管理には以下のような作業フローが存在します。これらの各作業の評価を行うためには、MTTDに加えて後述するMTTIなど各作業にかかる時間を評価する指標も有効です。

  • インシデントの認識・受付
  • インシデントの優先度判断、対応者の決定
  • 暫定対応
  • 恒久対応 など

インシデント対応に関する他の指標

インシデント対応においては、上述したMTTD以外にも様々な指標が用いられます。ここでは、各指標の定義について、MTTDとの関係性も踏まえながら整理します。

MTTRの定義

MTTRを「Mean Time To Repair:平均修復時間」の意味で用いる場合、MTTDとして計測される検知作業の後に、修復のために要した時間を計測したものがMTTRに相当するという関係性となります。

なお、システムの正常復旧までに要した総時間を測定したい場合、インシデントの認知にかかった時間(MTTD)に加え、修復作業(MTTR)や検証(MTTV)等にかかる各時間を合わせたものが該当します。

MTTIの定義

MTTI(Mean Time To Investigate:平均調査時間)は、インシデントの内容を調査するために要した時間を評価する指標であり、MTTRの一部となります。MTTIの計算式は以下のとおりです。

MTTI = インシデントの認識後、その内容を確認するために要した総時間 / インシデントの対応件数

なお、「MTTA(Mean Time To Acknowledge:平均確認時間)」としてインシデントの詳細確認を行う時間を評価するケースもありますが、これはほぼMTTIと同様の指標と考えてよいでしょう。

MTTKの定義

MTTK (Mean Time To Know:平均把握時間) は、障害の原因把握に要した時間を指す指標であり、MTTIと同様にMTTRの一部となります。

MTTKは、MTTIとして計測されるインシデント調査に費やした時間から、実際に復旧作業を開始するまでの時間に該当します。アラートなどによりインシデントを検知したものの、十分にドキュメントが存在せずシステムの詳細を把握するのに時間がかかったり、対応者のスキルが不十分であったりすると、MTTKが長期化しやすい傾向となります。

MTTFの定義

MTTF (Mean Time To Fix:平均修正時間)は、障害の原因を把握したのち、実際の修正に要した時間を計測したものであり、MTTRを構成する要素の一つとなります。

MTTVの定義

MTTV (Mean Time To Validate :平均検証時間))は、障害の復旧作業を実施した後、実際に問題が解決されたことを確認するのにかかる時間のことです。

障害対応を実施した後、障害が正しく取り除かれ、システムが正常に動作していることを確認するためには一定の時間が必要です。素早く復旧の確認を実施できているかを評価する指標がMTTVに該当します。

ここまで、それぞれの指標の関係性についてご紹介しました。最後に、これらの指標の関係性をまとめた式をご紹介します。

<参考:それぞれの指標の関係性>
システムの総ダウンタイム = MTTD + MTTR

MTTR =
MTTI (Mean Time To Investigate:平均調査時間)
+ MTTK (Mean Time To Know:平均把握時間)
+ MTTF (Mean Time To Fix:平均修正時間)
+ MTTV (Mean Time To Validate:平均検証時間)

MTTDを短縮するためのアプローチ

MTTDを短縮するためにはどのようなアプローチが有効なのでしょうか。以下では、いくつかのアプローチ例をご紹介します。

モニタリング強化

システムに関する重要な指標をモニタリングすることで、素早いインシデントの把握が可能となります。

監視すべき指標としては、以下のようなものが挙げられます。

  • リソース利用状況に関する項目:CPUやメモリの使用率などを踏まえ、システムに過剰な負荷がかかっていないか。
  • サーバーやサービスなどの死活状況に関する項目:サーバーやサービス、プロセスなどが稼動しているかを踏まえ、システムが提供すべき機能が正しく提供できているか。
  • ユーザー体験に関する項目:レスポンスやレイテンシーなどを踏まえ、システムのユーザーに対して想定されている水準で体験を提供できているか。

アラーティングの最適化

システムに関する重要な指標をモニタリングする中で指標が異常値となった場合には、システムに何らしかの異常が発生していると思われます。この際、アラートを通知することで、管理者は素早くシステムの異常状態を認識できます。

一方で、全てのアラートを通知すればよいというものではありません。オオカミ少年のように、重要でないアラートをたくさん通知された管理者はその対応だけで疲弊してしまいます。よって、重要度の設定やツールの活用などでアラートの通知を最適化できるような仕組みも必要でしょう。

オブザーバビリティ向上

インシデントを早期に検知するためには、システムのオブザーバビリティを向上させることも重要です。オブザーバビリティとはシステムの「可観測性」を表す言葉です。オブザーバビリティが高いシステムとは、システムの内部が良く見えるということを意味します。システムに発生している異常を把握しやすくするためには、システムの設計段階において内部がよく見えるようにしておくことも重要です。

特に、近年ではマイクロサービスモデルやコンテナの活用などにより、分散型のシステムが主流となっています。このような構成のシステムにおいては特にオブザーバビリティの向上が重要です。

あわせて読みたい
オブザーバビリティ(O11y)を理解しシステムの安定運用を実現する【事例付き】 近年、システム運用管理においてオブザーバビリティという概念が注目を集めています。オブザーバビリティとは一体どのような概念なのでしょうか。また、オブザーバビリ...

IT統合運用監視サービスLogicMonitorによるMTTDの短縮

MTTDを短縮する上では、オブザーバビリティ向上などシステム設計面も重要ですが、やはり運用監視におけるモニタリングやアラーティングを強化していくことが最も効果的な施策となります。そこで検討したいのが、モニタリングやアラーティングによる早期インシデント発見に有効な機能を持った運用監視ツールの採用です。

SaaS型のIT統合運用監視サービスであるLogicMonitorは、MTTD短縮という目的に向けて有効な機能を持ったツールといえるでしょう。LogicMonitorは死活監視、リソース監視、プロセス・サービス監視など様々な観点での監視により、モニタリングを強化します。収集した内容はグラフなどで可視化され、システムに発生している影響を早期に把握できます。

また、アラーティングにおいてはAIOps機能により、インシデントにつながる根本的な原因のみを通知することができます。インシデント対応においては大量のアラートを確認して根本原因を突き止めなければならないケースもありますが、LogicMonitorでは素早くインシデントの認知と原因把握が可能です。これにより、管理者の負荷も軽減することができるでしょう。

運用管理におけるインシデント対応に課題感を持たれている方は、ぜひ一度お問い合わせください。

まとめ

この記事では、インシデント管理に有効なMTTDという指標についてご紹介しました。ビジネスにおけるシステムの重要性が上がる現代において、システムの安定稼動と障害時の早期復旧というミッションの重要性も高まっています。素早いインシデント対応を実現する方法として、MTTDをはじめとした指標の活用や、MTTDの短縮を目標とした施策について検討してみてはいかがでしょうか。

日本を含む2,000社以上での導入実績がある、
IT統合監視サービス「LogicMonitor」
のサービス概要資料はこちらから

以下のような課題をもつ企業におすすめです。

  • 現状、監視ツールの複数導入でコスト・運用面で負荷が大きく、1つのツールで統合監視したい
  • AIOpsやオブザーバビリティの考え方を取り入れた最先端のSaaSツールで、運用のDXを推進したい
  • マルチテナント機能やシンプルな価格体系で、MSP事業者としてスムーズにサービスを提供したい
目次