支援対象地域:札幌、仙台、関東、愛知、関西、広島、福岡


システム障害とは

システム障害とは発生したらいったいどんなことになるのかを説明いたします。コンピュータやネットワーク機器、通信回線に発生し正常な状態を維持できなることをシステム障害といいます。機器の故障や破損による負荷インターネットを通じた外部からのコンピュータウィルスなどの攻撃、そしてソフトウェアのバグといったたくさんの原因があります。

システム障害の原因

システム障害の主な原因は、ハードウェアや設計ミスそれに大きな負荷がかかったりあります。その他にも停電や台風や震災、サイバー攻撃(DDOS攻撃)といったものも存在します。さらにはどんなに最適なシステム設計やシステムであっても人為的な操作や設定ミスなどでもシステム障害が発生してしまいます。現場での緊急時や人的問題から難しいのが実情ですし、人がオペレーションする以上ミスはつきものですのでシステム防止策は難しくなります。またシステム構成の設計ミスはエンジニアとして対処することが難しいです。機器構成による根本的なミスは機器自体に問題があることを教えてくれるので問題ありません。ネットワーク機器、サーバーや負荷分散方法、障害時の対応はエンジニアの経験やノウハウに依存してしまいます。

システム障害が発生したらどうなるのか?

システム障害が発生すると一部の機能が使えなくなったり、保存データの破損や消失したり、さらには処理能力が低下します。また外部からの通信をうけられなくなったり、管理者の操作を受け付けなくなったりシステムが完全停止します。システム障害が発生したら原因究明や復旧対策を迅速に対応を進める必要があり、常に予備機の準備と非常事態に備えての対応マニュアル、模擬的な訓練など行っていく必要があります。

サイレント障害

サイレント障害はシステム上に設定した静的な値では検知できない障害を指し、一般的なシステム監視ツールでは検知されない性能の劣化、脆弱化など症状の出るシステム障害となります。サイレント障害の予兆を検知することでシステム障害を防げます。また頻発するサイレント障害が発生すれば、企業に致命的なシステム障害を発生させる原因が潜んでいることも予知できます。

システム障害の対応と対策方法

システム運用に入る前に障害対応レベルに応じた対応手順とフローを含め定義すれば迅速な障害対応が可能です。管理対象システムネットワーク構成図や設定情報、ライセンス情報などを事前に集めておくと良いでしょう。

障害対応レベル

障害の発生することによって、障害の連絡方法、必要な対応の内容、時間が異なることは多いです。障害内容によっては対応のフローを変えたい場合、障害レベルをあげます。障害レベルは数字が低くなると内容が悪いということです。

・レベル1-サービス停止になるほどのシステム障害

・レベル2ー単体ではサービス停止はないが、多くまとめて発生するとサービス停止にもなるシステム障

・レベル3-急いで対応する必要がない場合やユーザーに影響がない場合、これだけではサービス停止にはならない障害

・レベル4-サービス停止にならない軽い障害、念のために情報通知をする

障害対応のフロー

システム障害が発生したら必要なことを定義します。まずは障害が発生したときの連絡先や連絡方法の確認、さらには障害の復旧対応が終わったときの条件、そして復旧の連絡先と連絡方法にその対応にかかった時間など上記で上げた障害レベルによって、連絡先など変えたい場合はレベルに応じたフローを作成しておきます。

障害対応手順

監視項目でシステム障害が発生した場合、対応手順を決定します。まず状況の確認方法、そのシステム障害が発生し現状どうなっているのかの確認の状況判断方法、どのような方法で復旧させればよいのかを確認する復旧対応方法、最後に二度と同じことを繰り返さないための再発防止に向けて情報を集めておくことです。障害を検知したら障害の影響範囲の見極めから始めます。一般では、システム障害は複数要素の複合的要因で発生します。システム障害が発生している箇所を特定し障害が発生してないかを確認しておきましょう。サービス提供に影響している可能性がある場合、ブラウザでURLアクセスをしサーバーへリモート接続するなど状況の確認とサービスへの影響を確認します。サービスに影響が出るシステム障害の場合、迅速に障害連絡先と情報共有しましょう。復旧に時間がかかる場合随時連絡と情報共有を行います。システム障害対応手順に沿って対応して復旧確認を行いましょう。障害が解消しないで手順書の対応が必要な場合はエンジニアのノウハウに基づき、障害原因特定と対応を行います。

まとめ

システム障害は企業にとって大きなダメージともなります。そのため対策や復旧対応の手順書などの作成は必須とも言えそれに備えた訓練や報告方法の確認なども行いましょう。完全に対策するのが難しいですが、事業への影響やリスクを理解した上で対策しないというのも選択肢の1つです。再発防止対策の必要性がどれほど重要なのか理解しておきましょう。