中東AWS障害がクラウドインフラサービスに衝撃を与える

概要

中東で深刻なインフラストラクチャ問題が発生し、Amazon Web Services (AWS) の大規模な障害を引き起こしました。この障害は、アラブ首長国連邦(UAE)とバーレーンの AWS リージョンに影響を与え、多くの組織が重要なコンピューティング、ネットワーク、およびストレージリソースへのアクセスを失いました。

障害の原因

主な障害はUAE地域内の単一の可用性ゾーン(mec1-az2)で発生しました。3月1日の午前4時半頃、外部物体がデータセンターを直撃し、これが火花を起こして構造的な火災を引き起こしました。

影響

この物理的損傷により、AWSの電源とバックアップジェネレーターが完全に停止されました。これによりAmazon Elastic Compute Cloud (EC2) インスタンスや Amazon Elastic Block Store (EBS) ボリュームなどが即座にダウンしました。

このローカルな電力喪失は、AWSエコシステム全体に大きな影響を与えました。Amazon EC2が深刻な障害を経験し、Amazon Relational Database Service (RDS) と Amazon DynamoDB のパフォーマンスも大幅に低下しました。

詳細

ME-CENTRAL-1 リージョン:

  • 3月1日の午前4時半、外部物体がデータセンターを直撃し、火災が発生して電力供給が停止。
  • 6:09 AM, AWSはローカルな電力喪失を確認し、mec1-az2 を隔離。
  • 9:41 AM, 火事の詳細が公開され、電源復旧は大幅に遅延。
  • 12:14 PM, AWSはEC2ネットワークAPIの障害を修正する変更を展開。
  • 6:01 PM, AssociateAddress API の回復;施設の電力供給が依然としてオフライン。

ME-SOUTH-1 リージョン:

  • 3月1日の夜、バーレーン(mes1-az2)でAPI接続の問題が増加。

影響を受けたサービス

ME-CENTRAL-1 リージョンでは、AWS Lambda、Amazon Elastic Kubernetes Service (EKS)、および Amazon Virtual Private Cloud (VPC) を含む38以上のクラウドサービスが影響を受けました。また、S3やCloudWatchなどのコアネットワーキングAPIは長期間にわたる障害を経験しました。

対応とインフラセキュリティ

AWSエンジニアは迅速に対策を行い、影響を受けたゾーンからのトラフィックをルーティングして全体のネットワークを安定化させました。しかし、オフラインサーバーに直接結びついたサービスは長い復旧時間を必要としました。

AWSは管理者に対して、障害のあるAPIをバイパスし、代替の可用性ゾーンを使用するよう助言しました。また、ネットワーククエリを実行する際には明示的にインスタンスIDを渡すことを推奨しました。

教訓

この障害は、多AZ冗長性の重要性を改めて強調しています。クロスゾーンアーキテクチャを使用している顧客は、ハードウェア故障による影響を受けにくいことが確認されました。


元記事: https://gbhackers.com/middle-east-aws-outage/