概要
Amazon Web Services(AWS)は、米国東部(US-EAST-1)リージョンで発生した約24時間にわたる大規模なサービス停止を解決しました。この障害は140以上のサービスに影響を及ぼし、世界中の顧客に広範な問題を引き起こしました。障害は2025年10月19日遅くに始まり、10月20日の午後には完全に解決されました。
障害の根本原因と経緯
このインシデントは、10月19日午後11時49分(太平洋夏時間)頃に、AWSエンジニアがUS-EAST-1リージョンの複数のサービスでエラー率と遅延の増加を検知したことから始まりました。10月20日午前12時26分には、地域DynamoDBサービスエンドポイントに影響を与えるDNS解決の問題が根本原因として特定されました。この初期問題が、他の多数のサービスに影響を及ぼす連鎖的な障害を引き起こしました。
午前2時24分にDynamoDBのDNS問題が解決された後も、DynamoDBへの依存性により、新しいインスタンスの起動を担当するEC2の内部サブシステムで障害が発生しました。さらに、Network Load Balancer(NLB)のヘルスチェックが機能不全に陥り、Lambda、DynamoDB、CloudWatchを含むサービス全体でネットワーク接続の問題が発生しました。
復旧プロセスを管理するため、AWSは一時的にEC2インスタンスの起動、Lambdaイベントソースマッピングを介したSQSキュー処理、非同期Lambda呼び出しなど、いくつかの操作を制限しました。エンジニアは午前中を通してNLBヘルスチェックの復旧に取り組み、午前9時38分(太平洋夏時間)にこの目標を達成しました。終日、AWSはネットワーク接続の問題に対処しながら、操作制限を徐々に緩和しました。10月20日午後3時1分(太平洋夏時間)までに、すべてのAWSサービスは通常の運用に戻りました。
しかし、AWS Config、Redshift、Connectなど一部のサービスは、主要な解決後も数時間にわたってメッセージのバックログ処理を継続しました。
顧客への影響
この障害は、特にUS-EAST-1エンドポイントに依存するグローバルサービスや機能に影響を与えました。これには、IAM認証やDynamoDBグローバルテーブルなどが含まれます。顧客は、EC2インスタンスの起動失敗、Lambda関数の呼び出しエラー、ストレージおよびデータベースサービスへのアクセス困難を経験しました。また、障害のピーク時には、サポートケースの作成や更新もできませんでした。
今後の対応と推奨事項
AWSは、発生した事象と類似のインシデントを防止するための対策について、顧客に包括的な理解を提供するため、詳細な事後報告を共有することを約束しています。同社は、地域的な問題に対する回復力を向上させるために、顧客に対し、複数のアベイラビリティゾーンにわたってAuto Scaling Groupsを設定し、インスタンス起動時に特定のゾーンをターゲットにすることを避けるよう推奨しています。