メニュー
SaaSpresto株式会社はLogicMonitorの国内販売代理店です

システムの運用監視におけるアラート疲れ その原因と対策とは

日々の業務においてアラートの内容確認や精査などに時間がかかってしまい、疲弊してしまっている方も多いのではないでしょうか。このような、いわゆる「アラート疲れ」は担当者のストレス源となるだけなく、インシデント対応の初動遅れや他の業務に割ける時間が減少するなど、運用管理の品質低下にもつながる問題です。

この記事では、システム監視においてアラート疲れが発生してしまう原因と、その対応方法についてご紹介します。

目次

監視におけるアラート疲れという課題

システムの運用監視においてよくあるのが「アラート疲れ」という課題です。なぜアラートはストレスの原因となるのでしょうか。まずは、アラートに疲れてしまう原因を整理します。

監視アラートとは

システムの運用監視においては、システムの異常を速やかに検知するために、あらかじめ設定した閾値などを超えた場合に管理者へ知らせるように設定しておきます。これがシステムの運用監視における監視アラートです。

アラートを設定しておけば、常に管理画面を見続ける必要がなく、また夜間などの勤務時間外であっても緊急時の対応を取りやすくなるというメリットがあります。

なぜアラートに疲れてしまうのか

一方で、監視アラートは管理者を疲れさせる原因にもなります。疲労の最も大きな原因は、大量のアラート通知への対処に苦労するという点ではないでしょうか。日々の運用管理業務において、大量のアラートを確認するだけで時間を要してしまい、ほかの業務に割く時間が無くなってしまうこともあります。大量のアラートの中に重要なアラートが混ざっている可能性もあるため、管理者はアラート対応に神経を使うことになります。

管理者の負担を高めてしまい、本来対応すべき対応が十分にできないという観点でも、アラート疲れの問題を解決していくことは重要だといえるでしょう。

アラートにおける偽陽性・偽陰性

大量のアラートが発生してしまう原因の一つに、アラートにおける疑陽性(false positive)・偽陰性(false negative)というものがあります。疑陽性とは「本来アラートを上げるべきではない状況に対してもアラートを上げてしまう」ものであり、偽陰性とはその反対に「アラートを上げるべきタイミングでアラートを上げられない」というものです。

これらのうち、システムの運用監視においてはできるだけ偽陰性を避けたいという考えが働きやすいといえます。偽陰性により、本来アラートを上げるべきタイミングでアラートが上がらず、結果として万が一重要な障害を見逃してしまえば、ビジネスに対して大きなインパクトを与える事態にもなりかねません。

しかしながら、一般的には偽陰性の発生を抑えようとすると、疑陽性の発生が増えるという関係性があります。たとえば、CPU使用率の閾値を80%以上でアラートを上げるように設定していたものの、万が一の事態に備えて閾値を50%まで下げたとします。これにより、CPUに負荷がかかっている状況は掴みやすくなりますが、一方で対応が必須ではない場面においてもアラートが上がってしまうことになります

偽陰性を避けるためにアラートの閾値を緩めに設定し、結果として大量のアラートが発生してしまうという問題は、簡単には解決できないといえるでしょう。

アラート疲れが引き起こすリスク

アラート疲れは、運用管理の品質にもつながる問題です。具体的にはどのような問題が生じるのでしょうか。

アラートの見逃しや対応の遅れ

大量のアラートが日々発生することで、一つひとつのアラートの確認作業がおろそかになり、結果として重要なアラートを見逃してしまうという可能性があります。

また、インシデント発生時に、大量のアラートの中から特に重要なアラートをなかなか見つけ出せず、対応が遅れてしまうという問題もあります。

このような事態は、MTTR(Mean Time To Repair:平均修理時間)の長期化にもつながってしまいます。

他業務への影響

さらに、アラートの対応だけで日々の業務の時間が終わってしまい、他の業務に十分に時間を割けないという問題も生じます。システムの運用管理においては、日々の業務の中で気づいた課題などを踏まえ、業務改善を進めていくことも重要ですが、そのような改善活動に割ける時間も確保できなくなってしまいます。

アラート疲れを解消するための方法

このように、アラート疲れは管理者の負荷を高めるだけでなく、システム運用管理の品質にもつながる問題です。それでは、アラート疲れを解消していくためには、どのような取り組みを行うべきなのでしょうか。

重要度の適切な設定

基本的な内容として、アラートに対して重要度を付与するという取り組みが必要です。重要度の設定により、見逃すべきではない重要なアラートや、後でチェックすればよいアラートなどを分類します。運用監視ツールにおいて重要度を設定することができれば、活用していくべきでしょう。

サーバーの停止やネットワークの切断など、システムが正常に稼働できなくなるような状況は、当然ながら重要度は高いといえます。一方で、具体的な障害につながらないようなインフォメーションに近い情報であれば、重要度を下げることもできます。

アラートに対して実施すべき事項の定義

アラートに対して対応すべき事項をあらかじめ定義しておくことで、初動における判断の効率を上げることができ、結果としてアラートへの対応を効率化できます。もし、対応すべき事項が自動化できるものであれば、オートメーションツールとの連携などによりアラートへの一次対応を自動化することでさらに効率化ができるでしょう。

アラートの重要度の決定においても関連してきますが、そもそもアラートに対して対応すべき事項が明確に定義できない場合は、アラートをやめるか重要度を下げる、もしくは少なくとも通知は不要としてもよいでしょう。アラートによる通知を受けたとしても、特段取れる対応がないのであれば、その内容は必ずしも即時に把握しなくてもよいということだと考えられます。

通知方法の改善

アラートの設定においては通知の有無についても併せて考慮が必要です。重大障害発生時には、チャットツール等で即時通知を行い、必要に応じて上位者へエスカレーションを行う必要がありますが、警告レベルの内容など重要度が低い場合はそもそも通知を行わずに、後で内容を確認すればよいケースもあります。

過剰な通知はそれだけで管理者に高い負荷を与えます。このような、いわゆる「強い通知」と「弱い通知」をうまく使い分けることで、アラート対応に対する負荷を軽減できます。

AIOpsの活用

アラート疲れに対処する有力な方法として検討したいのが、AIOpsの活用です。AIOpsとは、AIによりIT運用管理業務やITオペレーション業務の自動化・効率化を実現する技術のことであり、近年注目されている技術といえるでしょう。

AIOpsにより、アラートの最適化を行うことができます。たとえば、ノイズアラートの通知抑制はその一つです。よくあるのが、根本原因に伴い様々なアラートが同時に発生することですが、AIOpsによりこれらの通知を抑制し、根本原因を引き起こしているアラートのみを管理者に通知することができます。

また、AIOpsにより従来の静的な閾値だけではなく動的な閾値によるアラートを行うこともできます。たとえば、頻繁に利用されているシステムにおけるCPU使用率70%はそこまで問題がないかもしれませんが、日常的にあまり利用されていないシステムにおいてCPU使用率50%となっている場合は何らか問題が発生している可能性があります。このように、AIOpsによりシステムの利用状況に応じた適切な閾値を設定し、アラートの最適化を実現することもできます。

AIOpsはアラートの最適化以外にも、将来予測や予兆検知など様々な場面で活用することができる技術です。AIOpsの詳細については以下の記事で解説しているので、併せてご覧ください。

あわせて読みたい
AIOpsで変化するシステム運用とは?メリットや機能を徹底解説 クラウドの普及で監視対象となるITリソースや情報資産が日々増え続ける中、大量のデータの中から、各ITリソース間の相互関係やシステム間の複雑な依存関係を踏まえて、...

アラート疲れという課題を解決するLogicMonitorとは?

アラート疲れという課題の解決に有効なのが、上述した各解決方法を備えた運用監視ツールの採用です。SaaS型のIT統合運用監視サービスであるLogicMonitorは、運用管理者の方のアラート疲れを解消できるツールとして活用できます。以下では、LogicMonitorの具体的な機能を紹介します。

アラートのチューニングと効率的な管理

LogicMonitorでは、収集したメトリクスやログ、指定したイベント、Webサイトの状態、ジョブの実施状況など、様々な要素を基にアラートを設定できます。あらかじめ用意された監視テンプレートにより、監視対象となる製品に応じたLogicMonitorの推奨値でアラート閾値が自動で適用されるため、アラート設定が簡単に実現できます。この監視テンプレートの自動適用によって、主要な監視項目のアラート閾値については、チューニングのみで運用を開始できるため、効率的なアラート設定が可能です。

アラートの確認ページでは、重要度に応じたフィルタリングや対応状況の管理、視覚的なアラートの確認など、アラート対応を効率化する機能も用意されています。

これらの機能により、アラート対応の負荷をおさえることができる点がメリットです。

通知方法のカスタマイズ

アラートの配信方法も、柔軟にカスタマイズできます。SMSやメールに加え、音声通話でのアラート通知にも対応。アラートの重要度やアラートの発生源などに応じたルールに基づき、指定した方法・対象者で通知を行うことができます。

また、エスカレーションチェーン機能では、アラート通知の受信者の対応状況に応じて通知をエスカレーションさせることも。受信者が不在で応答がない場合は、さらに上位者に通知を飛ばすこともできます。また、曜日や時刻に応じて通知先を切り替えるような柔軟な設定も可能です。

このような機能により、アラートを受け取るべき担当者のみにアラートを通知することで、負荷の高いアラート通知の受信を最小限とすることができます。

AIOpsによるノイズアラート削減

さらに、LogicMonitorの大きな特徴としてAIOpsを搭載している点が挙げられます。AIOpsにより、アラートの最適化を実現できます。最適なタイミングで適切な運用担当者に根本原因のアラートのみを通知する「Root Cause Analysis(RCA)」により、根本原因に関連して発生するノイズアラートを大幅に削減。MTTRの短縮にも効果的です。さらに、動的閾値によるアラートの最適化も実現可能です。

AIOpsは、疑陽性と偽陰性のバランスを最適化するために有効な手法となります。AIが適切な閾値を設定することで、偽陰性により障害を見逃すリスクを抑えつつ、疑陽性による過剰なアラートを避けられるようにします。疑陽性と偽陰性のバランス最適化は手動での設定では中々解決が難しく、AIOpsの活用が有効なアプローチとなります。

まとめ

この記事では、システム監視におけるアラート疲れの対処方法についてご紹介しました。アラート疲れは多くの運用監視担当者の方を悩ませる問題ではないでしょうか。アラートを最適化できるツールの活用により、アラート疲れの問題を軽減できる可能性があります。過剰なアラートは担当者のストレスとなるだけではなく、運用管理の品質低下にもつながる問題です。一度、アラート疲れの解消について検討してみてはいかがでしょうか。

日本を含む2,000社以上での導入実績がある、
IT統合監視サービス「LogicMonitor」
のサービス概要資料はこちらから

以下のような課題をもつ企業におすすめです。

  • 現状、監視ツールの複数導入でコスト・運用面で負荷が大きく、1つのツールで統合監視したい
  • AIOpsやオブザーバビリティの考え方を取り入れた最先端のSaaSツールで、運用のDXを推進したい
  • マルチテナント機能やシンプルな価格体系で、MSP事業者としてスムーズにサービスを提供したい
目次