OPS

運用アンチパターンから学ぶ!成功のための3つの法則

2021.07.21

本記事のポイント

サーバの監視運用にお困りの方に向けて、
最適な運用を実現するための“3つの成功法則”を、注意すべきアンチパターンと合わせてご紹介します。

 

はじめに – ITインフラ担当者様が常に悩まされること

ITインフラのご担当者様の中で、「システムの監視や運用をきちんとしたいけれど何に気を付けたらいいのか分からない」「アラートが大量に出ており困っている」と悩んでいる方はいませんか?

弊社は長年、システム監視運用のサービスを提供しておりますが、 サービスやシステム運営をする中で、上記のお悩みについてご相談いただくことが多いです。

そこで今回は、システム運用者が陥りやすいアンチパターンについてご説明したうえで、 システム運用を成功させる3つの秘訣をご紹介します!

クラウド監視・運用代行・導入支援サービスはこちら

 

システム運用者が陥りやすいアンチパターン

システム運用の成功法則をお伝えする前に、まずはシステム運用者が陥りやすいアンチパターンについて触れたいと思います。 サービスシステムの運用や監視の本来あるべき姿を理解する一番の近道は、以下のアンチパターンを知っていただくことです。

アンチパターン1:監視対象を適切に選定できていない

システム運用者の中には、そもそも何を監視したらいいかわからず「監視できるものは手あたり次第設定をし、すべて通知させる」といった方法をとっている方が多いのではないでしょうか。

“システムの障害に気づくことができる”という点では、何も監視をしないよりは、監視しすぎている方が良いかもしれません。しかし、アラートが大量に飛んでくると運用担当者の負荷がとても高くなり、重要性の高いアラートを見落としてしまうことにもつながります。

アンチパターン2:想定外を想定していない

監視設定を行っただけで、監視体制が整ったと満足していませんか?

「滅多にシステム障害なんて起きないだろう」と思っている方もいるかもしれませんが、システムに”絶対”はありません。想定外のことが起きてしまうこともあり得ます。オンプレミスからクラウドへ移行したとしても、障害が減るとは限らず、最近ではクラウドの大規模障害も少なくないのです。

仮に障害が起きた場合は、瞬時に然るべき対応を取る必要があります。 ただ、誰が何をするのか迅速に判断し、実際に対応することは非常に難易度が高いです。したがって、サービスがダウンしたまま刻々と時間だけが過ぎていく、といった最悪の状況に陥る可能性もあります。

アンチパターン3:アーキテクチャがレガシーすぎる

クラウドが主流となっている今、オンプレミスでは実現できなかったようなアーキテクチャを実現することが可能となりました。一方で、十数年前と同じ構成のままシステムを使われている企業様も多くいらっしゃいます。しかし、オンプレミス運用にはたくさんの苦労が付きまとうのです。

例えば、OSはサポート期限が切れると、新しい機能の追加を享受できなかったり不具合や脆弱性が修正されず、セキュリティ上のリスクが出てきたりします。また、サーバの新調に苦労するうえ、構成自体のコスト効率が悪いなど、オンプレミスならではの弱点は少なくありません。

クラウドで便利なマネージドサービスが出てきたにも関わらず、それらがシステムに活用されていないと非常にもったいないです。

システム運用成功の3つの秘訣とは?

システム運用のアンチパターンについてご理解いただいたところで、運用成功の秘訣についてご説明したいと思います。

成功の秘訣1:サービスが正常に稼働しているかどうかを監視する

サービスを提供するにあたり最も大事なことは、サービスが「動いているかどうか」です。 サービスが「動いていること」を把握するには、URL監視を行いHTTPでGETした結果が200であるかを監視します。もしそうでない場合に応じて対応フローも考えます。

URL監視で確認すべきポイントは以下のとおりです。

・HTTPレスポンスコードが200であるかどうか
・特定のページに特定の文字列があるかどうか
・HTTPリクエストのレイテンシが小さいかどうか

なお、OSの細かいメトリクス監視(CPU、メモリ、ディスクの監視で複数閾値を設けてアラート通知する)を行い大量のアラートを通知させることはおすすめしません。なぜならば、“使用率〇%に達した場合アラートを通知する”と設定していても、システムによってはCPU使用率が100%に達しているにも関わらず、問題なく稼働している場合があるからです。

そのような場合はOSのメトリクス監視を行わずに、“レスポンスタイムが許容範囲に収まっているかどうか”を確認できるアラートを設定すると、必要最低限のアラートで最も重要なサービスが正常に稼働しているかをみることができます。

OSのメトリクスは、診断やパフォーマンス分析をするための材料として活用できますので、監視データの取得だけは行っておくと良いでしょう。

成功の秘訣2:想定外の障害発生時の対応フローを策定する

システムが正常に稼働している時から障害が発生した際のフローや復旧手順を整備しておくことが重要です。

例えば、サーバの再起動で復旧しない場合を想定します。別リージョンでバックアップからサーバを立ち上げるのか、それともユーザに障害状況を通知するメンテナンスページへの切り替え作業に取り掛かるのかなど、対応方法は様々です。企業の業種や方針によって対応が変わってくると思いますので、それらに沿った適切な対応フローを策定しましょう。

また、今よりひとつ上の運用監視を目指すのであれば、手順は自動化されている状態が望ましいです。

完全自動化ではなく半自動化でも対応スピードが格段にあがり、人的ミスを防ぐことができますので、コマンドで対応できるケースは事前にスクリプトを作成しておくことをおすすめします。

成功の秘訣3:クラウドネイティブなアーキテクチャを実現する

クラウドを利用している場合、クラウドネイティブな構成にし、常に最適化していくことで、運用コストと担当者様の負担を減らすことができます。

クラウドのメリットとして、負荷に応じてサーバ台数をスケールさせる、スペックをあげる、といった対応を簡単にできることが挙げられます。平常状態ではコストを抑えつつ、障害が起きた際のために可用性の高いアーキテクチャを作ることができ、結果的にコスト効率のよいシステム運用を実現することができます。

また、クラウドのメリットを最大限活用したいのであれば、OS基盤を”利用者”が管理するIaaSだけでなく、”クラウド事業者”が管理するPaaSについても積極的に導入してみてはいかがでしょうか。PaaSを使うことで、利用者がインフラ部分を気にする必要がなくなり、アプリケーションの監視や開発業務に注力することができます。

おわりに – システム運用を実現するために検討すべき点

運用アンチパターンを用いて運用の成功法則についてご説明しました。 本ブログでお伝えしたい運用成功の秘訣は3つです。

・サービスの監視対象を適切に選ぶ
・予想外の障害発生時の対応フローを策定する
・常にアーキテクチャの最適化を図る

ご紹介した3つのアンチパターンのうち、 実際の運用現場が抱える課題に近いものから検討してみてはいかがでしょうか。