2021月11月10日
こんにちは、技術部ネットワーク課の上曽山です。
ネットワーク課で行う業務の1つにサービス監視があります。
これは、サービスが正常に提供出来ているか、機器やソフトウェアの状態を観測する仕事です。
現行の監視システムは10年以上前から利用しているもので、細かいアップデートはあったものの全体的に仕様が古く、最新のサービスに適応出来なくなってきました。
そこでシステムを刷新することが決定しました。
刷新にあたり、いくつか機能の追加/見直しをすることとなったため、途中で方針がブレないよう重要なポイントをピックアップしていきます。
ポイント①: 常時サービス監視出来ること
監視システム自身の故障が発生した時やメンテナンスを行っている時でもサービス監視を止めるわけにはいきません。複数のサーバを用意する等の手段でシステムが止まらないようにする必要があります。
また、社内のどこからでもサービスの状態が分かるようにする仕組みも重要です。
ポイント②: サービス提供に必要な要素が網羅されていること
ここでいう要素とは、機器やソフトウェアなど、実際にサービスを動かすために使われるものの事を指します。
サービスの品質低下を早急に検知するためには、その対象を漏れなくカバーしなければなりません。
ポイント③: 異常を速やかに検知出来ること
異常を速やかに検知するためには、様々なパラメータを適切な頻度で観測すること、観測結果を記録し正常値と異常値を把握出来るようにすることが求められます。
ポイント④: 異常を検知した際、確実かつ速やかに通知が届くこと
異常発生を確実に伝えるために、メール、SMS、チャットツール、警報といった複数の連絡手段を用意して監視システムと連動させます。
重要度に合わせて通知方法を変えられればベターです。
これらのポイントを実現するのは容易ではありませんが、より良いサービスを提供するため、何とか形にしたいと思います。