サーバー監視の目的は?監視項目やツールの比較ポイントを解説
サーバーは24時間365日安定した稼働が必要です。死活監視、パフォーマンス監視、サービス監視などシステムの安定稼働を監視するためのサーバー監視業務について紹介します。
サーバー監視とは
サーバー監視は、サーバーの稼働状況を定期的にチェックして、「ダウンしていないか、パフォーマンスに問題がないか」を確認する業務です。はじめに、サーバー監視の目的について説明します。
①サーバー監視の目的
サーバー監視の目的について、3つのポイントを紹介します。
(1)サーバーの稼働確認
一時的に大量のアクセスがサーバー側へ同時集中するなど、サーバーの処理能力が限界を越えた場合、サーバーダウンやパフォーマンス低下が発生します。
平日の日中など、システム利用者が多い時間帯での異常やパフォーマンス低下は、日常業務や企業活動にも支障をきたします。
障害発生から障害復旧までを迅速に行なうために、サーバーの稼働状況を定常的に監視することは、監視業務の重要なポイントの一つです。
(2)迅速な障害検知
近年、サイバー攻撃は増加傾向にあります。
攻撃者がサーバーへ一度に大量のリクエストを送り、システム停止に追い込む事件が数多く報告されています。
これは一例ですが、サーバーに何かしらの異常が発生した場合、検知が遅れた分だけ、ユーザーはシステムを利用できなくなります。障害発生時にサーバーを早期に復旧させるために、定常的な稼働状況の監視は欠かせません。
(3)安定性確保・リソースの最適化
サーバーが持つCPUやディスクの利用状況が100%に近づくと、システム遅延の発生や、場合によってはサーバーがダウンしてしまいます。サーバーダウンやパフォーマンス低下を発生させないためには、必要十分なリソースをサーバーに割り当てなければなりません。
一方で、必要以上のリソースを割り当てたままにしてしまうと、使われないままの無駄なリソースも増え、結果的にコストパフォーマンスが悪化します。
企業の限られた予算内で、安定性確保に必要となる適切なリソース量を見積もり、その乖離をできる限り抑えるのは、サーバー監視の大事な役割です。
サーバー監視の種類
サーバー監視は、正常監視と異常監視に大別されます。それぞれの言葉が持つ意味について紹介します。
①正常監視
正常監視は、サーバーがユーザーの期待通りに常に動いていることをチェックするための監視業務です。
CPU・メモリ・ディスクの利用状況(使用率)や、サーバー上で実行中のプロセス・サービスを可視化することで、サーバーが健全かつ安定的に動作していることを確かめます。
②異常監視
異常監視は、サーバーに発生した異常を早期に検知し、原因特定や迅速な復旧を行うための監視業務です。
急激なシステム利用者数の増加や外部からの攻撃、停電や自然災害の影響等で障害は発生します。このような障害や問題には予測困難なものも含まれており、100%防げるわけではありません。
この不可避な問題に対して、早期に検知し、問題の原因と影響範囲を特定します。そして、障害発生から復旧までの時間(MTTR)をできる限り短く抑えるために、異常監視は行われます。
サーバー監視の内製化と外注
サーバーの稼働に休日や祝日という概念はありません。
企業のITサービスを提供しているサーバーは、たとえ休日であったとしても障害が発生すれば、その対処を誰かが行わなければなりません。そのため、十分な運用保守の人員確保が難しい企業では、サーバー監視業務を外注するケースも一般的です。
以下に、サーバー監視を内製化(自社で実施)する場合と外注(アウトソーシング)する場合のメリット・デメリットをまとめました。
内製化 | 外注 | |
メリット | ・柔軟で迅速な対応が可能 ・社内にノウハウが蓄積される | ・社内調整が不要 ・教育や採用にかかる時間を削減 ・他業務や本業に専念できる |
デメリット | ・教育や採用に多大な時間や人的な投資が発生 ・労働時間などの調整が必要 ・退職や異動による属人化の問題 | ・継続的な外注コストが発生 ・社内にノウハウが蓄積されない ・融通が利かない |
サーバー監視業務は専門知識を前提としており、内製化は必ずしも容易でありません。そのため、日本国内にも多くのアウトソーシング事業者があり、オンプレミス・クラウドに関わらず、企業のサーバー監視業務を請け負っています。
サーバー監視ツールの主な機能
サーバー監視は、ツールを利用することで効率的な監視業務が実現できます。以下では、サーバー監視ツールが持つ5つの機能について紹介します。
①死活監視
死活監視は、名前の通り、サーバーが停止していないか、の監視を行います。
pingを利用して、監視対象のサーバーにリクエストを送り、受信したサーバーからの応答をもとに、稼働しているかどうかの判別を行う方法が一般的です。
近年は、クラウドの普及にともない、HTTPプロトコルを用いて、インターネット経由でサーバーの稼働状況を監視するツールが増えています。
②パフォーマンス監視
パフォーマンス監視は、CPU・ディスク・メモリの使用率が性能低下を引き起こす水準にないか、の監視を行います。
サーバーには、システムの利用状況を考慮して、必要なだけのリソースが事前に割り当てられています。その割り当てた量に対して、時間帯ごとに「しきい値」を設定しておき、そのしきい値を越えたらアラートを生成します。
最近では、しきい値に関して、事前に決めた「静的しきい値」の値だけを利用するのではなく、関連指標や過去データのパターンや傾向をもとに「動的しきい値」を自動的に計算するようなツールもあります。
③プロセス・サービス監視
プロセス・サービス監視は、サーバーにインストールされたサーバーOS上で実行されているプロセス・サービスを対象とする監視です。
プロセス単位で監視を行うため、具体的にどのプロセスがどの程度リソースを利用しているか、使用状況を把握できます。サーバー自体は正常稼働していても特定のプロセスやサービスが利用できない場合の原因特定が目的です。
④ログ監視
ログ監視は、たとえば、サーバー上で実行されたイベント単位のログを取得し、その詳細ログについて分析を行います。
サーバーのアクセスログには、いつ誰がどんなリクエストを行なったのかが詳細に記録されています。これらのログデータを集計し、その詳細ログ分析を通じて、障害の発生源の特定や、根本原因の調査や把握を行います。
⑤ハードウェア監視
ハードウェア監視は、サーバーを構成する部品やコンポーネント機器の監視業務です。
電源・バッテリー・ファン・マザーボードなど、センサーを用いて温度・電圧などの状態を監視します。
ハードウェアは、設置場所が複数拠点に分散していたり、マルチベンダーな機器構成であったりすることが一般的です。サーバー監視ツールでは、これらを一元的に監視する仕組みを備えています。
サーバー監視ツールの比較ポイント
サーバー監視ツールは、非常に数多くの選択肢があります。自社に合ったツールを導入する上で検討すべき7つのポイントについて紹介します。
①サーバー監視ツールと統合監視ツール
統合監視ツールは、サーバー監視に加えてネットワークやストレージなど、企業が保有するITリソースやITインフラを包括的に監視できるツールです。
クラウドが普及したことで、企業のITリソースは多様化しました。
監視ツールについても、オンプレミスの物理的なサーバー・ネットワークなどだけでなく、クラウド上の仮想サーバーやサーバレスを含めた、それぞれ異なるアプローチの監視が必要で、監視ツール自体の管理や運用も複雑化しています。
統合監視ツールを用いれば、監視ツールの管理画面を行き来することなく、一つのツール内で監視業務を完結できます。
統合監視ツールは、監視できる対象・領域が非常に広範囲なため、サーバー監視に特化したツールに比べて、運用監視業務全体の効率化につながります。
②無料(OSS等)と有償ツール
自社に専門知識を有したインフラエンジニアがいる場合、オープンソースで提供されている無償のサーバー監視ツールを利用するという選択肢があります。
しかし、無償で提供されるオープンソースのサーバー監視ツールは、運用担当者が自身で導入の設計やカスタマイズ・改修を行う必要があります。また、監視対象・領域が増えるに従って、その対応を自ら行わなければなりません。
有償ツールに比べて、ツール自体のライセンスのコストはありませんが、専門知識のある人材と、定常的な更新やアップグレード作業などのメンテナンスコストが必要です。
さらに、コスト面で安易に導入して、その後、アップグレード作業をせずに、古いまま使い続けている企業が多くあり、セキュリティの観点でリスクを抱えたまま使用し続けている企業が多く見受けられます。
また、「専門知識を有したインフラエンジニアが抜けてしまうと業務に致命的な支障が出る」といった、いわゆる属人化の問題も懸念点として挙げられます。
一方で、有償ツールは利用料金がかかるものの、専門知識がなくても、効率的な導入や運用保守サポートを受けられる点が魅力です。
③エージェントの有無
サーバー監視でメトリクスやログといったデータ収集を行う仕組みには、エージェント型とエージェントレス型があります。
従来は、エージェントというソフトウェアを各サーバーにインストールして、利用状況の把握を行なっていました。
エージェント型は、サーバー内部でエージェントが動作するため、サーバー内部のプロセスを詳細に把握できるメリットを持ちます。一方で、サーバー自体への負荷や、監視対象が増えると初期導入やソフトウェアの更新作業の手間が煩雑になる点はデメリットです。
エージェントレス型は、各サーバーへのインストール作業や更新作業が不要です。さまざまな通信プロトコルを用いて、監視対象サーバーのデータを監視ツール側へ送信する仕組みです。
エージェント型に比べて、初期導入や更新作業の工数が少なく、監視対象・領域の拡大・拡張にも柔軟な対応を行える点から、近年はエージェントレス型の監視ツールが注目を集めています。
④初期設定や運用のしやすさ
監視ツールの導入にあたっては、多かれ少なかれ、ソフトウェアのインストールや連携が必要です。
また、ダッシュボードのカスタマイズをしてレポートを見やすく整え、監視アラートを生成するしきい値の設定・変更作業を行うなど、監視ツール自体の設定作業も行わなければなりません。
そのため、直感的に使いやすい画面や、サービスのアップデート対応にかかる工数など、運用業務で定常的に利用する上での使いやすさは重要な観点です。
⑤サポートの有無
サーバー監視の導入・運用には専門知識が求められます。
そのため、監視ツールについても、十分に使いこなすには、サービス提供者の運用保守サポートが欠かせません。
運用保守サポートの体制は、ツールによって大きく異なり、電話・メール・チャットでテクニカルサポートを提供しているサービスもあれば、定期的なミーティングで手厚いサポートを行うサービス業者もあります。
ツールによっては、テクニカルサポートが有償のオプションサービスになっていることもあるので、必ず導入時に運用保守サポートの体制やサポート内容・範囲について確認を行いましょう。
⑥料金体系
監視ツールの料金体系はさまざまで、初期費用の有無、月額定額制、従量課金制などサービスごとに異なります。
クラウド型の監視ツールでは、オンプレミス中心の監視ツールからの移行を考慮して、従量課金で部分的な適用から始められるような料金体系のサービスもあります。
また、無料トライアル期間が設定されたサービスであれば、実際の管理画面の使い心地、自社の監視要件やニーズに合っているか、等も事前に評価検証が可能です。
監視ツールは、導入することで本来必要な人件費の抑制にもつながりますので、単なるツール費用としての側面だけでなく、ツール導入による運用を見越して、予算の確保や料金の比較を行いましょう。
⑦自動化による運用効率化
監視ツールを導入する目的は、ITリソースを効率的に管理し、運用保守にかかる工数や負荷を削減することです。
監視ツールを通じて、問題が発生した場合の運用担当者への通知や、発生した問題の根本原因特定を自動で行えれば、運用業務が改善され、効率的になります。
監視ツールによっては、AIOps(AI・機械学習によるIT運用管理)の活用で、異常検知やパフォーマンス予測について、高度な効率化や自動化を実現できるものもあります。
監視ツールの導入にあたっては、現状の運用業務フローの洗い出しを行い、「導入した製品によって、どの業務がどの程度、効率化・自動化や運用管理コスト(TCO)の削減ができるのか」を確認しましょう。
まとめ
サーバー監視を通じたシステムの安定稼働は、企業全体の生産性にも影響を及ぼします。
一方で、監視対象はサーバー以外にも多数存在しており、監視領域も拡張しているため、運用業務の全体的な最適化と効率化は避けられない課題です。IT人材不足が叫ばれる昨今、限られた人的リソースで様々な監視対象を効率よく監視するには、監視ツールの導入が現実的な選択肢となります。
LogicMonitorは、AIOps(AI・機械学習によるIT運用管理)を用いた分析・自動化機能も有する、最新のIT統合運用監視サービスです。
複雑化するIT運用業務の効率化かつ自動化のためにも、ぜひ比較検討いただければと思います。詳しくは資料をダウンロード、または、お気軽にお問い合わせください。