AWS、約24時間にわたる大規模障害を解決
Amazon Web Services(AWS)は、米国東部リージョン(US-EAST-1)で発生した約24時間に及ぶ大規模なサービス障害を解決しました。この障害は、140以上のサービスに影響を及ぼし、世界中の顧客に広範な問題を引き起こしました。障害は2025年10月19日遅くに始まり、10月20日の午後までに完全に復旧しました。
障害の根本原因はDNS解決の問題
今回のインシデントは、10月19日午後11時49分(太平洋夏時間)頃に、AWSエンジニアがUS-EAST-1リージョンの複数のサービスでエラー率とレイテンシの増加を検知したことから始まりました。10月20日午前12時26分、AWSは地域別DynamoDBサービスエンドポイントに影響を与えるDNS解決の問題がトリガーであることを特定しました。この初期問題が、多数の他のサービスに影響を及ぼす連鎖的な障害を引き起こしました。
連鎖的な障害と復旧プロセス
DynamoDBのDNS問題が午前2時24分に解決された後、AWSはDynamoDBへの依存により、新しいインスタンスの起動を担当するEC2の内部サブシステムでさらなる障害に直面しました。状況は、ネットワークロードバランサーのヘルスチェックが機能不全に陥り、Lambda、DynamoDB、CloudWatchを含むサービス全体でネットワーク接続の問題が発生したことでさらに悪化しました。
復旧プロセスを管理するため、AWSは一時的に以下の操作を制限しました。
- EC2インスタンスの起動
- Lambdaイベントソースマッピングを介したSQSキュー処理
- 非同期Lambda呼び出し
エンジニアは午前中を通してネットワークロードバランサーのヘルスチェックの復旧に努め、太平洋夏時間午前9時38分にこの目標を達成しました。終日、AWSはネットワーク接続の問題に対処しながら、操作制限を徐々に緩和しました。10月20日午後3時1分までに、すべてのAWSサービスは通常の運用に戻りました。しかし、AWS Config、Redshift、Connectなどの一部のサービスは、主要な解決後も数時間にわたってメッセージのバックログを処理し続けました。
顧客への影響とAWSの推奨事項
この障害は、特にUS-EAST-1エンドポイントに依存するグローバルサービスや機能(IAM認証やDynamoDBグローバルテーブルなど)に影響を与えました。顧客は、EC2インスタンスの起動失敗、Lambda関数の呼び出しエラー、ストレージおよびデータベースサービスへのアクセス困難を経験しました。また、障害のピーク時には、サポートケースの作成や更新もできませんでした。
AWSは、今回の事象に関する詳細な事後サマリーを共有し、同様のインシデントを防止するための対策を顧客に提供することを約束しています。同社は、複数のアベイラビリティゾーンにわたってAuto Scalingグループを設定し、インスタンス起動時に特定のゾーンをターゲットにしないことで、リージョンレベルの問題に対する回復力を向上させることを推奨しています。