OPS

BIと監視運用の共通点と、運用に重要な観点

元BIエンジニアが考える!
BIと監視運用の共通点と、運用に重要な観点とは?

2021.11.15

本記事のポイント

元BIエンジニアであり現在はシステムの監視運用を行う筆者が、一見無関係な「BI」と「監視運用」の共通点をご紹介します。

また、BIエンジニアという経験から気づいた、監視運用を導入・実施する際の重要な観点もご紹介します。



はじめに

システム監視運用のご担当者様の中で、「監視対象について適切な範囲を絞れず、何をどうすればよいか分からない」と悩んでいる方も多くいらっしゃるのではないでしょうか。

元BIエンジニアの私は、BIツールの導入時・導入後でも同じような悩みに直面し、その経験がJIG-SAWで監視導入を行う際に活きていると実感しています。

そこで今回は「BI」と「監視運用」という異なるモノの共通点と、今後の監視運用業務に役立つ観点をご紹介します。

> システムの監視運用代行サービス – プラン詳細はこちら

BI(Business Intelligence)とは?

BIとは、企業に蓄えられているビッグデータを収集・分析、その結果を可視化し 業務や経営の意思決定に利用する仕組みです。

それらを実現するソフトウェアやシステムは「BIツール」と呼ばれ、様々な企業様へ導入されています。

BIツール

BIと監視運用の共通点

続いて、BIと監視運用に共通する、ありがちな問題点について見ていきます。

【問題1】高機能がゆえに、使いこなすのが難しい

特定の業務に特化したパッケージ製品とは異なり、BIツールに備わっている機能はさまざまな業界・分野のデータを分析するために、汎用的なものになっています。そのため機能はバリエーションに富み、設定やカスタマイズ次第で「どのようにでも使える」ため、BIツールに詳しい技術者がいない場合、メインの分析作業が「行えない」という現象が起きえます。

一方、監視運用についても同様のパターンに陥る場合があります。

例えばリソースの閾値を細かいレベル別で設定する、ログの特定文字を多数検知させる、など手当り次第で『どのようにでも設定できる』が故に、クリティカルなアラートが埋もれて『対応できない』場合があります。

【問2】現場・導入者の温度感の違いで、 運用工数が肥大化しがち

BIツールは分析のために存在するため、PDCAサイクルでいう所の P(plan:計画) や C(check:評価) を行うためのツール、という側面が非常に強いです。直接D(do:実行) を行うツールではないため、利用しなくても現場の業務に直接的な打撃はなく、困らないという見方もあります。

導入者は現場が欲する情報の規模感以上に分析対象を肥大化させやすく、その結果現場の分析者の欲しい情報にそぐわなくなり、利用されない事になったり運用工数が肥大化しがちです。

一方、監視運用の方も、設定対象が肥大化することが多々あります。なぜなら、導入者は少しでもシステムダウンの可能性を下げたいと考えるため、実際の運用を顧みずに、ついあれもこれもと監視範囲を拡大してしまうためです。

現場の規模感以上に監視対象が肥大化した場合、現場の監視運用担当者が運用しきれないアラート量になり、結果的にクリティカルなアラート対応が遅れる、または対応できない、というケースが発生します。

> システムの監視運用代行サービス – プラン詳細はこちら

監視運用において重要な観点

前段で記載したような事象に陥らないよう、監視運用を導入・運用する上で重要な観点を見ていきましょう。

PDCAの D(do:実行) の規模感に合わせた P(plan:計画) を行う

監視運用の導入は、まず監視対象の選別から始まります。この際、運用担当のリソースを見極めたうえで設定しましょう。

万が一システムが停止したら・・・と考えると、すべてを網羅した監視を計画したくなるのは当然です。しかし、そもそも数千・数万の監視対象を数人の部隊で常に運用する事は現実的ではありません。

過去1度もシステム監視を行っていない状態で導入プロジェクトが進める場合、つい理想を追った計画をたててしまい、実際の運用リソースにまで気が回らないケースも多いため、現場との認識合わせはよく行うようにしましょう。

監視対象は最優先事項から増やしていく

運用リソースの規模感を把握した後は、最優先事項から監視対象を選別していきます。例えばWebページを提供しているサービスであれば、以下のような1例が挙げられます。

優先度 最高 URL応答監視(サービスが正常に稼働しているか)
優先度 高 サービス影響を与えるリソース閾値、webページ関連プロセス(サービスが正常に稼働する状況が整っているか)
優先度 中 サービス影響手前のリソース閾値、webページ非関連プロセス、サービス関連ログ(サービスが正常に稼働できない予兆があるか)
優先度 低 無関係なログ、サービス影響の無いリソース閾値

運用リソースが潤沢にある場合、優先度中や低を常に検知し対応することで安定稼働が見込めますが、そこまでリソースを割けない事がほとんどかと思います。

優先度最高と高を確実に設定し、運用リソースと相談しながら優先度中や低に目を向けることで、安定した監視運用サイクルが生まれます。

> システムの監視運用代行サービス – プラン詳細はこちら

まとめ

今回は、「BI」と「監視運用」という一見無関係なモノから見える共通点と共に監視運用の重要な観点をお伝えしました。

どちらも導入や設定に注力しすぎることで、運用が上手く回らないケースが多々見られます。

JIG-SAWでは様々な監視ボリュームや運用レベルに沿ったプランをご提供しておりますので、監視運用についてお悩みの方は 弊社の監視サービス を、ぜひご検討ください。