AIOpsで変化するシステム運用とは?メリットや機能を徹底解説
クラウドの普及で監視対象となるITリソースや情報資産が日々増え続ける中、大量のデータの中から、各ITリソース間の相互関係やシステム間の複雑な依存関係を踏まえて、異常検知や障害の原因特定を行うのは容易でありません。
AIOpsは、人工知能や機械学習モデルを用いて、リアルタイムに分析を行い、IT運用管理業務やITオペレーション業務の自動化・効率化の実現を目指しています。本記事では、AIOpsでできることやメリット、運用管理の現場で実際に活用されている事例や機能について詳しく解説します。
AIOpsとは
AIOpsとは、2016年に大手ITリサーチ会社であるGartner社が提唱した造語で、「Artificial Intelligence for IT Operations」の略称です。略称の通り、AIや機械学習(マシンラーニング)の技術を活用し、IT運用管理業務をできるだけ自動化・効率化していく意味となります。
以下では、AIOpsの目的や注目が集まる背景を説明します。
①AIOpsの目的
人の手で行われてきたITインフラのシステム運用管理業務において、AIOpsは、人工知能・機械学習技術による正確かつ効率的なIT運用管理やITオペレーションの実現を目指しています。
一般的には、ネットワーク、サーバー、ストレージなど、企業が持つITリソースやIT資産に関する監視データやログデータを、クラウドなどのプラットフォーム上に収集・集約します。そして、蓄積された膨大なデータの中から、AIや機械学習を用いて、
- 異常検知の予測(予兆検知)
- 根本的な障害原因の特定
- 将来予測
などを行います。
不要なアラートを大幅に削減することで、システム運用業務の管理工数が削減され、人的な判断ミスの根絶や、障害検知から復旧完了までの時間(MTTR)短縮につなげられます。
②AIOps注目の背景
クラウドやリモートワークの普及や定着化などを背景に、ITサービスに求められる要件は年々変化し、複雑性が増しています。
とくに、長年ITインフラのシステムを運用管理してきた企業にとっては、従来のレガシーのIT資産・リソースも管理維持しつつ、コンテナやサーバレスなど、新たな技術・環境、ユーザーからのニーズに対応していかなければなりません。
企業内に閉じていたネットワークも、SaaSやBYODの利用ニーズの高まりを受けて、社内ネットワークの境界線の見直しを改めて迫られています。
運用管理・監視すべき対象・領域、ITシステムが増え続け、その相互関係性が複雑化の一途を辿る中、運用管理担当者がそのすべてを網羅的に運用・管理し続けるのに限界が訪れつつあります。
AIOpsは、これらの問題に応える、注目されつつある自動化の中心的な技術要素となっています。
企業が成長を続ける限り、それに比例して運用システムの管理範囲や領域も拡大を続けます。システム運用管理に必要となる人的コスト・リソースが、企業の成長や継続性のボトルネックとならないためにも、AIOpsを活用したシステム運用管理の効率化・最適化、そして将来的には、完全自動化・省人化は多くの企業にとって必要不可欠な要素となりつつあります。
AIOpsが可能にすることやメリット
AIOpsを取り入れることで、企業のIT運用管理担当者はさまざまなメリットを享受できます。以下では、AIOpsが持つ4つの特徴を紹介します。
①複数ソースからのデータ収集と管理
AIOpsを最大限に活用するためには、企業内ネットワークに接続されたサーバー、ネットワーク機器、ストレージ等のITインフラから出力される監視メトリクスやログデータを一元的に集約し、管理を行うのが一般的です。
一元管理することで、様々な監視対象に関する時系列形式の統計データや、イベント単位のログデータを、一つの管理画面で参照できます。膨大なリソースのデータが統合管理されるため、運用管理担当者は多種多様な監視対象について、複数の管理画面を交互に見比べて行ったり来たりする必要がありません。
また、監視ツール自体のライセンス費用や、導入から運用・更新作業の管理工数についても、ツールが統一化されることで、総所有コスト(TCO)を抑えられます。
②運用業務の自動化・人的ミスの削減
AIOpsでは、異常検知や障害の根本原因特定を、取集したデータからある程度、自動で行ってくれます。データの分析や障害の原因特定作業は、非常に複雑かつ専門的なスキルや経験も求められることから、人間による分析や調査では判断ミス発生のリスクを常に抱え、データも膨大になっているため、作業工数のひっ迫などで限界に近づいています。
異常検知では、重要度の低いアラートも大量に同時多発するため、その切り分け作業ひとつとっても多くの時間が必要です。また、運用管理担当者がこのような分析・調査業務に定常的に多くの時間を取られてしまうと、本来するべき運用業務プロセスの効率化や、他の新規サービス拡張に取り組む時間も限られてしまいます。
AIOpsを活用して、マンパワーだけでは対応が難しいこれらの分析・調査プロセスを自動で行うことで、運用管理担当者は、AIが不得意な問題解決や重要な意思決定に集中し、運用管理業務における人的ミスを減らし、より高度な業務に集中できるようになります。
③人間よりも迅速かつ正確な問題分析
AIは、データやシステム間の相関関係を分析し、未知の問題発見や予測を行います。相関分析の結果の中には、これまで人間では認識できず、見落とされていた問題も含まれます。
過去データのパターンや傾向から利用状況を将来予測し、サーバーダウンのリスクを事前に把握できる機能は、その一例です。
このように、人間では発見までに時間を要し、発見自体も困難である潜在的な問題やリスクについて、AIOpsを活用することで、迅速かつ正確な分析や問題解決の支援を行えるようになります。
④データを通じたビジネスへのフィードバック
AIOpsを通じて得られた分析結果が、経営や事業レベルの判断に役立つ可能性も考えられます。
たとえば、顧客に提供しているサービスの利用状況の将来予測や、過去データの傾向分析や可視化は、売上拡大や顧客満足度を高める施策を検討する上で役立ちます。
このように、データの分析結果やレポートは、提供しているサービスの品質向上だけでなく、経営やビジネスにも直結する気づき・インサイトや、戦略を考える上でも必要な経営情報を得られる可能性があるのです。
経営層や事業の意思決定者への分析レポートやフィードバックとして活用できる点も、AIOps導入のメリットの1つなのです。
AIOpsの事例
AIOpsは、IT運用管理業務のさまざまな場面で活用されます。ここでは、AIOpsに関する3つの活用事例を紹介します。
①利用状況の予測とリソース効率化
運用管理担当者の業務の1つに、ITサービスマネジメントやリソース計画があります。サービスの需要や設定したサービスレベルに合わせて、システムの処理能力や容量を事前に見積もります。
しかし、前述したように、管理するべき対象・領域が増え続けると、利用状況をサーバーごとに分析しシミュレーションを行うのも膨大な工数が必要です。
AIOpsでは、CPU、メモリ、ディスク使用率の過去の時系列データを用いて、将来の利用予測を自動で行います。
運用管理担当者は、過去データを引っ張り出してシミュレーションの計算や分析業務に工数をかけることなく、これらの予測結果に基づき、サーバーリソースやストレージ容量の計画を容易に最適化できるのです。
②異常検知から問題解決までの短縮(MTTR短縮)
従来のIT運用サービスの監視業務では、利用状況の特定の数値に対して、静的なしきい値を設定し、その静的しきい値を越えた場合に、アラート生成を行っていました。
一方で、このような静的しきい値は通常稼働時のデータだけを見て判断することが多く、「大量のアラート生成が発生して本当に重要なアラートに気付きにくい」という問題を抱えています。
このような問題に対してAIOpsでは、動的しきい値を用います。動的しきい値は、静的しきい値の弱点を補完するために出てきたものです。
アラート通知が多すぎる場合は、不要なノイズアラートの通知抑制を行い、本来必要な「ボトルネックとなる根本原因のアラートだけ」を運用管理担当者へ通知します。
アラートの確認や切り分け作業に追われていた運用担当者は、重要な根本原因のアラートのみに集中できて、問題の見落としを防ぎ、迅速に復旧作業や問題の対処ができるようになり、MTTR短縮を実現します。
③障害対処法のレコメンド
ITサービス間の依存関係が複雑な場合、特定の1つのサービスダウンに伴って、他のサービスへ影響を及ぼし、関係するサービスでもアラートが生成されます。
複数のサービスで同時に異常が報告されると、どのサービスに根本原因があるのかの判別が容易ではありません。
AIOpsでは、過去の障害パターンや発生したアラート間の相互関連性を分析し、「どのサービスに根本原因があるのか」をほぼ自動で突き止めます。
障害の根本原因特定、いわゆるRoot Cause Analysis(RCA)を人の手で行おうとすると、サービス一つひとつの仕様や履歴を追わなければならず、多くの時間と手間を要します。
その点、障害復旧までの迅速な対応を求められる運用現場において、AIOpsによる根本原因特定は、サービス品質向上と安定稼働に多大な貢献をします。
AIOpsの機能
AIOpsを提供するプラットフォームには、IT運用業務を効率化・自動化するためのさまざまな機能が備わっています。以下では、AIOpsに関する6つの機能を紹介します。
①広範なデータソースからのデータ収集
AIOpsでは、企業内ネットワークに接続されたサーバーやネットワーク機器等のITインフラから膨大なデータ収集を行います。
収集されたデータは、イベントログとコンテキスト(状況)に沿った時系列データとして、保存・管理されます。監視可能な製品のベンダーや対応バージョンは、製品やサービス毎に対応範囲が異なるので、注意が必要です。今後、SaaSやIoTのさらなる活用が見込まれる中、AIOpsでも継続的に新たなサービスやプロトコルへの対応が期待されています。
②データの集計・分析
一般的に、AIOpsでは、収集した監視対象のデータを統計的に集計して、ダッシュボードに可視化して表示します。
ユーザーは、期間やメトリクスデータを管理画面上で指定するだけで、多数の監視対象の利用状況を効率的に把握できます。
サービスによっては、検索機能、フィルター、ソート機能が付帯しており、一つのダッシュボードやグラフ上で、柔軟なデータ分析が可能です。
複雑なプログラムコードを記述することなく管理画面上で直感的にデータ集計を行えるため、運用管理担当者の学習コストも抑えられ、集計したデータの分析やレポート作成が容易にできるようになっています。
③機械学習(マシンラーニング)
機械学習(マシンラーニング)は、AIOpsのコアとなる技術基盤です。
ITサービス提供者が開発した機械学習モデル・アルゴリズムによって、異常検知や利用予測など、IT運用管理業務で必要となる多種多様な分析結果を自動で導き出し、パターンや傾向の示唆やインサイト(洞察や気づき)を提供します。
その精度とスピードは、人間が実現できる作業範囲や量、そして内容としても大きく越えており、IT運用管理業務の大幅な効率化や自動化が見込めます。
また、機械学習はデータが増えることで、精度の向上やインサイトを提供できる点も特徴です。その精度が人の判断を介する必要がない程に高まれば、ネットワークやサーバー構成の自動切り替えや拡張展開、予兆検知、さらには障害発生時の自動復旧など、IT監視運用業務の完全自動化の道に繋がります。
④動的しきい値
AIOpsの監視が従来手法と異なるのは、動的しきい値などにより、不要な大量のアラート通知を削減し、「対処が必要な根本的な原因につながるアラートのみ」通知を行う点です。
IT運用管理担当者は、大量のアラートの中身を確認して重要度や対処の必要性を切り分ける作業が必要ありません。また、AIを通じて、問題発生時の根本原因についてある程度自動的に特定してくれるため、障害発生から復旧までの時間(MTTR)を限りなく短縮できます。
⑤ITサービスマネジメント(ITSM)
運用管理担当者の業務は、稼働しているITサービスの死活監視やパフォーマンス監視だけではありません。
無駄なIT資産やITリソースを減らし、必要十分な構成となるように変更や最適化を定期的に行います。ITリソースは、当初予定していたよりも過度に冗長化されていたり、使わなくなったITリソースやユーザーのライセンス等が長時間放置されたりすることがあります。
AIOpsは、過去の使用実績に基づいて、ITリソースの使用状況を常時監視し、最適な状況を維持するため、導入計画時の想定から乖離した利用実態のITリソースを容易に発見することで、システムを最適化し、健全な状況を維持・管理できます。
まとめ
AIOpsは、クラウド時代におけるIT運用監視業務の効率化と自動化を実現する有効な技術です。こうしたAIOpsの機能を搭載したIT運用監視ツールも提供されるようになってきました。今後はさらなる機能追加や技術の発展が期待される分野です。
LogicMonitorは、AIOpsの最新機能を搭載するエージェントレス型IT総合運用監視サービスです。
AIOpsを開発の中心として力を入れており、オンプレミスからクラウドへマイグレーションによって複雑化しつつあるハイブリッド環境にある、IT運用管理業務の課題解決に役立ちます。「AIOpsを活用した効率的かつ自動化」を前提としたIT運用監視業務を実現する上でも、ぜひ比較検討いただければと思います。