Amazon、広範囲にわたるAWSサービス障害の技術的欠陥を公表

はじめに

Amazon Web Services(AWS)は、2025年10月19日から20日にかけて発生した大規模なサービス障害について、その技術的な根本原因を公表しました。この障害は、数百万の顧客とAmazon自身の業務に影響を与え、広範囲にわたる混乱を引き起こしました。

障害の概要と影響

障害は、太平洋夏時間(PDT)の10月19日午後11時49分に始まり、10月20日午前2時24分まで約2時間35分間続きました。この期間中、US-EAST-1リージョンのAWSサービスでエラー率が著しく増加しました。問題は広範なインフラ障害ではなく、特定のDynamoDBサービスエンドポイントにおけるDNS解決の問題でした。

DynamoDBはAmazonの高性能データベースサービスであり、多数のアプリケーションを支えています。DNSシステムがこれらのサービスへのリクエストを適切にルーティングできなかったため、AWSエコシステム全体に連鎖的な問題が発生しました。このインシデント中には、Amazon.com自体もダウンし、多数のAmazon子会社サービスやAWSカスタマーサポート業務も影響を受けました。

根本原因:DNS解決の問題

AWSのエンジニアは、10月20日午前0時26分PDTにDNS解決の問題を特定し、直ちに緩和策を開始しました。彼らは午前2時24分PDTまでにDynamoDBのDNSに関する核心的な問題を解決し、復旧に向けた最初の大きな節目を迎えました。

復旧への道のり

主要な問題が解決された後も、一部の内部サブシステムでは障害が残っていました。これらの残存する問題に対処するため、AWSは一時的かつ戦略的な措置として、特に新しいEC2インスタンスの起動など、特定の操作をスロットリング(制限)しました。これは、システムが過負荷になるのを防ぎ、よりスムーズな復旧を支援するためのものでした。

10月20日午後12時28分PDTまでに、AWSサービスおよび顧客システム全体で大幅な復旧の進捗が見られました。AWSは午後を通じてEC2インスタンス起動操作のスロットリングを徐々に緩和し続けました。技術チームは、システムの健全性を継続的に監視しながら、残りの影響領域に体系的に対処しました。10月20日午後3時01分PDTまでに、AWSはすべてのサービスが正常な運用に戻ったと発表しました。初期検出から完全な復旧までの全プロセスは、約15時間を要しました。

今後の対策と顧客へのアドバイス

AWSは、今回のインシデントについて詳細な事後サマリーを公開し、何が起こったのか、チームがどのように対応したのか、そして同様のインシデントを防止するためにどのような変更を実施しているのかを説明しています。Amazonは、現在も何らかの問題を経験している顧客に対し、AWS Health Dashboardでリアルタイムのステータス更新と追加情報を確認するようアドバイスしています。


元記事: https://gbhackers.com/amazon-reveals-technical-fault-behind-aws-service-outage/