ICTで経営課題の解決に役立つコラムを掲載
ウェビナーレポート
【MC-SOC】
クラウドサービスの安定運用に求められる監視運用とは
2021年12月16日、「クラウドサービスの安定運用に求められる監視運用とは」というテーマでオンラインセミナーを開催いたしました(図1)。講演は、NTTビジネスソリューションズ バリューデザイン部の小林英史、田中貴久が務めました。
クラウドサービスとはパブリッククラウド基盤上で提供されるアプリケーションなどのサービスを指し、本セミナーではそのサービス提供会社向けに、クラウドサービス運用におけるお客さまが抱えているお悩みから、安定運用における課題とその解決方法について、事例をもとにご紹介していきました。
クラウドサービス運用におけるお客さまが抱えているお悩み
クラウドサービスを運用している方、もしくは、今後クラウドサービスをリリースする予定の方は以下のようお悩みを抱えていませんでしょうか(図2)。
- システムトラブルの発生時には開発者が監視運用対処をしないといけない
- 監視対象を網羅できているかどうかわからない
- 開発段階で予見できなかった不具合に対し運用改善ができていない
これらのお悩みを放ったらかしにしておくと、サービストラブルが発生し、会社の信用と落としてしまうような、大きな問題を引き起こしてしまう恐れがあります。
クラウドサービス運用でのお悩み分析と課題設定
上述したお悩み、それらについての課題を解説していきます。
【システムトラブルの発生時には開発者が監視運用対処をしないといけない】(図3-1)
監視運用体制が構築できていない場合、開発者がそのまま運用も兼任することとなります。その場合、開発者は本業に専念できない、つまり、サービスの改良や新サービスの開発に着手できなくなります。そこで、開発段階から監視運用の設計や体制の構築をするなど、『監視運用フェーズを考慮したシステム開発を実施』する必要があります。
【監視対象を網羅できているかどうかわからない】(図3-2)
お客さまのシステムで不具合が発生した際、監視項目に引っかからなかった場合、運用担当者にアラート通知が届かず、不具合に気付かないというケースが考えられます。そうなると、システム故障や不具合を見落としてしまい、迅速な対応ができません。そこで、『監視条件をもれなく設定し監視運用設計に反映』することが重要です。
【開発段階で予見できなかった不具合に対し運用改善ができていない】(図3-3)
サービス運用開始後、開発中に予見できなかった不具合が発生したものの、アラートが上がらず、不具合の原因もわかっていないケースがあります。このあとの対応が遅れてしまうと、不具合事象の再発、サービス品質の低下が懸念されます。そこで、『不具合が起きた際の早期対応・改善』が重要となります。
これらを踏まえて、クラウドサービス安定運用のための、以下の3つの課題を設定しました。
課題1 『監視運用フェーズを考慮したシステム開発を実施』
課題2 『監視条件をもれなく設定し監視運用設計に反映』
課題3 『不具合が起きた際の早期対応・改善』
クラウドサービス監視運用案件より -課題解決事例のご紹介
MC-SOC(*1)が実際に監視運用を実施しているクラウドサービスの案件(図4)から、先ほどの3つの課題を実際に解決した事例をご紹介します。
*1:NTTビジネスソリューションズが提供するMC-SOC(Managed Cloud Service Operation Center)は多種多様なサービスの監視・運用・保守を24時間365日で行うリモートオペレーションセンターとなります。
課題1 『監視運用フェーズを考慮したシステム開発を実施』
サービス開発中のお客さまから、「運用に不安がある」との相談を受け、われわれは運用コンサルティングの立場でプロジェクトに参画しました。お客さまから検証環境をお借りし、弊社の有スキル者がシステムの習熟やノウハウを蓄積しつつ、監視運用設計を実施しました。そして、運用フェーズもアウトソーシングで弊社にお任せいただきました。監視運用設計コンサルティングから監視運用オペレーションまでトータルで提供させていただくことで、質の高い監視設計、スムーズな監視運用の開始、また蓄積したノウハウをもとに能動的にシステム改善案の提案をすることもできました。
課題2 『監視条件をもれなく設定し監視運用設計に反映』
このサービスの場合、システムから出されるログが一か所(syslog)に大量に蓄積されており、監視条件設定においては、ここからサービス停止を示すものや、またサービス停止を予見できるエラーログをアラートとして抽出する必要がありました。そこで、弊社の有スキル者による解析で、エラーログの内容を一つ一つ確認しながら、監視条件の漏れのない拾い上げと監視運用設計への反映を実施しました。監視条件の洗い出し工程をしっかり行い、監視条件が曖昧なままサービスリリースするという見切り発車が解消されることで、リリース直後のトラブルの軽減、また、運用開始後の監視チューニング量が削減されました。
課題3 『不具合が起きた際の早期対応・改善』
運用開始後には、アラートとして検出できないサービス不良、いわゆるサイレント故障が発生することがあります。今回は、不定期で実施したサービス正常確認でNGを発見したものの、該当サーバからのアラートは検出していなかったものとなります。早期に検知方法を確立する必要がある中、弊社の監視設計コンサルティングメンバーが引き続き監視運用に従事していたため、システムに対する知見をもとに、新たな監視設定を追加するよう改善提案を実施しました。トラブルに対し、運用サイドからの連携・支援を実施できる体制となっているため、開発側には根本原因の調査に専念していただき、運用に関わる負担軽減にもつながりました。
MC-SOCのコンサルティング込みのアウトソーシングにより、開発者の運用稼働の軽減、漏れのない監視項目設定、運用時における不具合への早期対応・改善という効果が得られます(図5)。
以上、3つの事例で紹介したように、MC-SOCによるトータルアウトソーシングは、お客さまのクラウドサービス安定運用に貢献することができます(図6)。
セミナー後のアンケートより
セミナー後にアンケートを取ったところ
現在の監視運用における課題の選択肢では、監視対象を網羅できているかわからない(40%)、システムトラブルの発生時には開発者が監視運用対処をしないといけない(36%)が多いことから、トラブル発生時の監視条件が網羅された監視運用設計が必要と共に、開発リソースを確保するために役割分担が必要であると気づきになるセミナーになったと思います(グラフ1)。
まとめ
クラウドサービス安定運用のためには、『監視運用フェーズを考慮したシステム開発を実施』、『監視条件をもれなく設定し監視運用設計に反映』、『不具合が起きた際の早期対応・改善』がポイントです。我々は、NTT西日本グループのシステム監視運用、セキュリティ監視運用により培ったノウハウを活かし、お客さまの多種多様なシステム運用課題にアプローチいたします。
関連リンク
MC-SOC
https://www.nttbizsol.jp/service/operation/
MC-SOCに関するお問合せ
https://form.nttbizsol.jp/inquiry/operation
あわせて読みたいナレッジ
関連製品
Bizナレッジキーワード検索
- カテゴリーから探す
- 快適なオフィスの実現
- 生産性向上
- 労働力不足の解消
- セキュリティー対策
- ビジネス拡大
- 環境・エネルギー対策