メニュー
SaaSpresto株式会社はLogicMonitorの国内販売代理店です

予兆検知(予兆監視)によるITシステム運用の高度化 その手法や実現方法とは?

ビジネスにおけるシステムの重要度が増す中で、システムの安定的な運用に対する期待度はますます向上しています。システムの障害予兆をとらえる「予兆検知」は、安定的なシステム運用に寄与する手法といえるでしょう。

この記事では、システム運用管理において有用といえる「予兆検知」について、その概要や技術的な背景、主な手法などを紹介します。

目次

システム運用管理において注目される「予兆検知」

近年、システム運用管理において予兆検知というキーワードが注目されるようになりました。予兆検知とは一体どのような概念なのでしょうか。以下で解説します。

障害が「起きる前」に対処することの重要性

DXの潮流などを背景に、ビジネスにおけるシステムの利用範囲は拡大を続けています。ビジネスにおいてシステムの存在が競争力の一部となるようになり、システムの停止はすなわちビジネスの停止や企業の収益性低下に直結する事態となりました。

このような状況の中、システム運用管理に求められる水準も高まっています。システムが停止してしまった際の障害復旧速度はもちろんのこと、そもそもシステムを停止させないための取り組みも重要視されるようになっています。

予兆検知とは何か

このような背景もあり、システムの安定運用への取り組みが進んでいます。システム停止などの甚大な影響を及ぼす前に、小さな変化をとらえ事前に対応できるようにする予兆検知もその一つです。

ITシステムの運用管理における予兆検知とは、システムの稼働において収集される負荷状況や稼動状況、パフォーマンス状況などの過去データを参照することで、障害の予兆を事前に検知する仕組みのことです。

通常、システムの運用監視においては、稼働状況のチェックやメトリクス情報の閾値を監視することで、障害の発生状況を把握します。一方で、予兆検知では、システムのパフォーマンス状況などの過去データを用いて、稼働状況に関するパターンを分析します。

分析に基づき、障害が発生しやすい傾向を把握し、障害発生前にその予兆をとらえることを目指します。分析の結果、もし障害が発生する予兆をとらえた場合に、アラートを発報します。これにより、実際に障害が発生する前に、事前に手立てを行えるようにします。

予兆検知の技術的背景

予兆検知を行うための手法は様々ですが、ひとつはシステムの稼働状況などの過去データを統計的に分析する手法が挙げられます。

たとえば、CPUの利用率を基に予兆検知を実現するケースを考えます。過去のCPU利用率データを統計処理し、平均値や標準偏差など算出したところ、CPUの利用率は平均30%程度であり、たいていの場合は0%~70%程度の領域に収まっているとします。この場合、たとえばCPU利用率が70%を超えたら例外的な事象が起きていると判断できます。この時にアラートを発報するように設定しておくことで、システムに何か問題が発生している可能性があることを早い段階で認識できます。

また、さらに高度な予兆検知手法として、機械学習などAI関連技術を利用するケースもあります。たとえば、機械学習により、過去に発生した異常と類似した事象が起きていないかを監視するようなことも可能です。

なお、AIを用いて運用管理業務を効率化・自動化することを「AIOps」と呼びます。AIOpsは2016年に大手ITリサーチ会社であるGartner社が提唱した造語で、「Artificial Intelligence for IT Operations」の略です。AIOpsはシステムの運用管理負荷を低減させつつ、システムの安定運用につながる考え方といえるでしょう。

あわせて読みたい
AIOpsで変化するシステム運用とは?メリットや機能を徹底解説 クラウドの普及で監視対象となるITリソースや情報資産が日々増え続ける中、大量のデータの中から、各ITリソース間の相互関係やシステム間の複雑な依存関係を踏まえて、...

予兆検知は何を実現するのか

予兆検知を導入することで、どのようなことを実現できるのでしょうか。以下では、主な導入効果を紹介します。

障害の事前防止

予兆検知により、障害が起こる前にその兆候をとらえることで、システムが停止する前に対応を行うことができます。

たとえば、特定の曜日・時間帯などでCPU等のリソース使用量が増えつつある傾向をとらえたとします。この場合、この曜日・時間帯に行っている処理において、何らかの問題が発生していると想定することができます。同曜日・時間帯に実施している処理を調査してみたところ、特定のバッチ処理の挙動に問題があり、リソースを大幅に消費していることが明らかとなりました。

このように、障害が起きる前に通常と異なる挙動をしている状況を事前に把握し、対応を行うことで、システム停止という最悪の事態を避けることにつながります。

障害の予測的検知とアラートの削減

さらに、AIOpsの考え方に基づく高度な予兆検知においては、予測的に障害の兆候をとらえることも可能となります。

一般的に、システムの異常検知においては監視により収集したメトリクスなどが一定の閾値を超えていないかをチェックしますが、障害の兆候となる状況を全て厳密に条件設定することは難しいといえます。事前に設定できていなかった状況により、障害が発生することもあります。

機械学習やAI機能を活用し、過去に収集したシステムの動作状況などのメトリクスデータを高度に分析・学習することで、事前に設定した条件以外にも障害が起こりそうな兆候を把握する取り組みも可能となります。

また、AIOpsを活用することで、不要な大量のアラートを削減することもできます。

過度なアラーティングは、システム運用管理者にとって高負荷となります。重要ではないアラートに対応するだけで業務が終わってしまっては、他の作業もままなりません。また、大量のアラートを処理する際に、障害につながる原因を見逃してしまう恐れもあります。

そこで、AIOpsの考え方に基づく高度な機能により、対処が必要な根本的な問題に対してのみ、必要十分かつ最小限のアラーティングを行うようにします。これにより、システム運用管理者の負荷軽減を実現しつつ、対処しなければならない対応に集中することで、システムの安定運用や障害時の早期復旧につなげることができます。

主な予兆検知の手法

以下では、主な予兆検知手法について紹介します。

動的な閾値設定

システム環境や稼働状況により最適な閾値は異なります。一般的に、監視における閾値設定は通常運用時の値を基本とすることが多いですが、状況により大量のアラートが発生する、もしくは障害発生の兆候をとらえられないことも考えられます。

そこで、システムの過去の運用状況に関するデータやパフォーマンスデータなどを基にして、システムが安定運用している、もしくは不安定な状況を統計的に分析し、動的に閾値を設定します。これにより、必要十分なアラーティングを実現できるようにします。

キャパシティ予測

ストレージなど、長期的に使用量が増え次第に枯渇していくリソースについては、いつごろ容量が不足するのかを想定しておく必要があります。そこで、将来的なキャパシティを予測する技術が用いられます。

キャパシティ予測においては、これまでのリソース使用量から、将来的な使用量を予測します。たとえば、毎月ストレージの利用量が平均5%ずつ増えており、現在利用量が60%である場合、簡単な計算では8か月後にストレージ容量が不足する状況になると想定できます。

もちろん、実際には時期的な要因やイレギュラー事項などによってストレージ利用量は変動するため安全度を見積もる必要がありますが、このような回帰的な予想によって、ある程度の推測が可能となります。

キャパシティ予測によって、追加でのIT投資が必要となる時期をあらかじめ予想できるため、予算の確保や社内調整なども含め、計画的な取り組みを実現できるというメリットがあります。

周期性の分析

システムの稼働状況は、季節や時間帯などによって、周期性がみられるケースがあります。

たとえば、自社の会計システムにおいて、給与計算処理は月の特定の日付に行いますし、月末においては請求書発行処理や検収処理などが立て込むこととなります。

このような場合に、単純に過去のパフォーマンスデータを分析するだけでは、正しい予兆検知ができないこともあります。

上述した会計システムの例であれば、給与計算日や月末・月初めに高い負荷がかかることとなります。また、ユーザーによるオンライン処理がメインとなるシステムにおいては、昼間のCPU利用率は平均40%の一方、夜間は平均20%となるようなことも考えられるでしょう。

このように周期性を分析することで、より正確な予兆検知が可能となります。たとえば、昼間の想定CPU利用率と夜間の想定CPU使用率を区別することで、過度なアラーティングを避けつつ、システムにイレギュラーが発生している状況を検知できるでしょう。

監視ツールの導入により予兆検知を実現する

様々な利点がある予兆検知ですが、どうすれば予兆検知をシステム運用に取り入れることができるのでしょうか。

近年では、予兆検知技術を取り入れたシステム運用監視ツールが登場しています。このようなツールを取り入れることで、予兆検知を実現することができます。

上述した動的な閾値設定やキャパシティ予測など、製品によって予兆検知に関して備わっている機能は異なります。よって、自社のニーズに合わせた製品選択がポイントとなります。

高度な予兆検知機能を投資際した統合型運用監視ツール「LogicMonitor」とは

LogicMonitorは、本記事で紹介したAIOpsの考え方に基づいた機能を搭載するSaaS型IT統合運用監視サービスです。LogicMonitorを導入することで、以下のような高度な予兆検知を実現することができます。

動的な閾値設定

過去のデータを基に稼働状況に関する正常パターンを蓄積・学習。正常パターンから外れた場合など障害が発生しやすい傾向を把握し、リアルタイムに事前に予兆検知を実現します。

キャパシティの将来予測

AIOps機能により将来の利用状況を予測計算。最適なITシステムの追加投資額と時期を予測し、無駄なく投資効率の向上とシステム全体の最適化を実現できます。

また、サーバ、ストレージなどのITリソースのサイジングをはじめ、過去の運用データに基づいた適正なリソースやパフォーマンスを継続することでバランスを取りながら、最適化することも可能です。

ノイズ・アラートの削減

最適なタイミングで、適切な運用担当者に、根本原因のアラートだけを通知する仕組みを備えます。ボトルネックになっている根本的な要因に関連して発生するノイズ・アラートを大幅に削減し、MTTR短縮化を実現します。

LogicMonitorはこれらの機能により、システム運用管理者の負荷も軽減可能です。IT運用業務の効率化・自動化に寄与する製品といえるでしょう。

あわせて読みたい
IT統合監視サービス「LogicMonitor」サービス概要資料 日本を含む2,000社以上での導入実績がある、IT統合監視サービス「LogicMonitor」のサービス概要資料です。 以下のような課題をもつ企業におすすめです。 現状、監視ツー...

まとめ

この記事では、予兆検知に関して主な手法やその効果についてご紹介しました。ビジネスにおけるシステムの重要性が高まる中で、機会損失につながるシステム停止を避けることの重要度が増しています。予兆検知を実現するツールをうまく活用することで、システムの安定運用に寄与することができるでしょう。

日本を含む2,000社以上での導入実績がある、
IT統合監視サービス「LogicMonitor」
のサービス概要資料はこちらから

以下のような課題をもつ企業におすすめです。

  • 現状、監視ツールの複数導入でコスト・運用面で負荷が大きく、1つのツールで統合監視したい
  • AIOpsやオブザーバビリティの考え方を取り入れた最先端のSaaSツールで、運用のDXを推進したい
  • マルチテナント機能やシンプルな価格体系で、MSP事業者としてスムーズにサービスを提供したい
目次