概要
中東で深刻なインフラストラクチャ問題が発生し、Amazon Web Services (AWS) の大規模な障害を引き起こしました。この障害は、アラブ首長国連邦(UAE)とバーレーンの AWS リージョンに影響を与え、多くの組織が重要なコンピューティング、ネットワーク、およびストレージリソースへのアクセスを失いました。
障害の原因
主な障害はUAE地域内の単一の可用性ゾーン(mec1-az2)で発生しました。3月1日の午前4時半頃、外部物体がデータセンターを直撃し、これが火花を起こして構造的な火災を引き起こしました。
影響
この物理的損傷により、AWSの電源とバックアップジェネレーターが完全に停止されました。これによりAmazon Elastic Compute Cloud (EC2) インスタンスや Amazon Elastic Block Store (EBS) ボリュームなどが即座にダウンしました。
このローカルな電力喪失は、AWSエコシステム全体に大きな影響を与えました。Amazon EC2が深刻な障害を経験し、Amazon Relational Database Service (RDS) と Amazon DynamoDB のパフォーマンスも大幅に低下しました。
詳細
ME-CENTRAL-1 リージョン:
- 3月1日の午前4時半、外部物体がデータセンターを直撃し、火災が発生して電力供給が停止。
- 6:09 AM, AWSはローカルな電力喪失を確認し、mec1-az2 を隔離。
- 9:41 AM, 火事の詳細が公開され、電源復旧は大幅に遅延。
- 12:14 PM, AWSはEC2ネットワークAPIの障害を修正する変更を展開。
- 6:01 PM, AssociateAddress API の回復;施設の電力供給が依然としてオフライン。
ME-SOUTH-1 リージョン:
- 3月1日の夜、バーレーン(mes1-az2)でAPI接続の問題が増加。
影響を受けたサービス
ME-CENTRAL-1 リージョンでは、AWS Lambda、Amazon Elastic Kubernetes Service (EKS)、および Amazon Virtual Private Cloud (VPC) を含む38以上のクラウドサービスが影響を受けました。また、S3やCloudWatchなどのコアネットワーキングAPIは長期間にわたる障害を経験しました。
対応とインフラセキュリティ
AWSエンジニアは迅速に対策を行い、影響を受けたゾーンからのトラフィックをルーティングして全体のネットワークを安定化させました。しかし、オフラインサーバーに直接結びついたサービスは長い復旧時間を必要としました。
AWSは管理者に対して、障害のあるAPIをバイパスし、代替の可用性ゾーンを使用するよう助言しました。また、ネットワーククエリを実行する際には明示的にインスタンスIDを渡すことを推奨しました。
教訓
この障害は、多AZ冗長性の重要性を改めて強調しています。クロスゾーンアーキテクチャを使用している顧客は、ハードウェア故障による影響を受けにくいことが確認されました。
