Cloudflare、大規模インターネット障害の技術的詳細を公開

Cloudflare、大規模インターネット障害の技術的詳細を公開

Cloudflareは、2025年11月18日に発生し、世界中のインターネットサービスに影響を与えた大規模なネットワーク障害に関する包括的な事後分析を公開しました。この障害は数時間にわたり、Cloudflareのコンテンツデリバリーネットワークおよびセキュリティサービスに依存する何百万ものウェブサイトとアプリケーションに影響を及ぼしました。

データベース権限変更が連鎖的障害を引き起こす

この障害は、サイバー攻撃や悪意のある活動によって引き起こされたものではありませんでした。原因は、CloudflareのClickHouseデータベースシステムにおける一見すると日常的なデータベース権限の更新にありました。この変更により、データベースクエリがメタデータを返す方法が変更され、Cloudflareのボット管理システムで使用される設定ファイルが、重複するエントリによってサイズが2倍に膨張しました。

通常、約60の機械学習機能を保持するこの機能ファイルは、重複データにより200を超えるエントリに肥大化しました。これがCloudflareのプロキシソフトウェアのハードコードされたメモリ制限を超過し、肥大化したファイルを読み込もうとした際に基幹システムがクラッシュする事態となりました。診断を特に困難にしたのは、断続的な障害の性質です。問題のある設定ファイルは5分ごとに再生成されましたが、更新されたデータベースノードにクエリがヒットした場合にのみ不十分なデータが生成されました。これにより、サービスが停止し、一時的に回復し、新しいファイルがネットワーク全体に伝播するにつれて再び停止するというパターンが生じました。

この不安定な挙動により、Cloudflareのエンジニアは当初、大規模な分散型サービス拒否(DDoS)攻撃を疑い、外部ステータスページも同時にオフラインになったことで、攻撃シナリオの調査に集中しましたが、最終的に実際の構成問題が特定されました。

広範囲にわたるサービスへの影響

この障害は、多数のCloudflareサービスに影響を及ぼしました。

  • コアCDNおよびセキュリティサービス:エンドユーザーにHTTP 5xxエラーを返しました。
  • Turnstile認証:失敗し、ダッシュボードへのログインを妨げました。
  • Workers KV:エラー率が上昇しました。
  • Access認証:ほとんどのユーザーで失敗しましたが、既存のセッションは機能しました。
  • メールセキュリティ:レピュテーションソースへのアクセスを失い、一時的にスパム検出の精度が低下しました。

Cloudflareのレガシープロキシシステムと新しいFL2プロキシエンジンは両方とも影響を受けましたが、その影響は異なりました。FL2の顧客は明確なエラーに直面しましたが、レガシーシステムユーザーはボットスコアが0と誤判定され、ボットブロックルールで誤検知につながる可能性がありました。

障害の解決と今後の対策

エンジニアは13:37 UTCに根本原因を特定し、14:24 UTCに新しい設定ファイルの生成を停止しました。彼らは既知の良好なバージョンの機能ファイルを手動で展開し、プロキシの再起動を強制しました。コアトラフィックは14:30 UTCまでに通常の流れに戻り、完全なサービス復旧は影響を受けたシステムの再起動とバックログのクリアに時間がかかり、17:06 UTCまでかかりました。13:05 UTCの一時的な回避策により、Workers KVとAccessが失敗しているプロキシレイヤーをバイパスできるようになり、完全な修正が展開される前に依存サービスへの影響を軽減しました。

Cloudflareはこれを2019年以来最悪の障害と認め、複数の改善策を約束しました。同社は、構成ファイルの取り込みにおける検証チェックの強化、機能のより多くのグローバルキルスイッチの有効化、システムリソースを圧倒するエラー報告の防止、およびすべてのプロキシモジュールにおける障害モードのレビューを計画しています。このインシデントは、一見すると些細なインフラストラクチャの変更が、相互接続されたシステム全体で適切な検証とサイズ制限が徹底的にテストされていない場合、いかにして大規模な連鎖的障害につながるかを示しています。


元記事: https://gbhackers.com/cloudflare-full-technical-explanation-of-internet-outage/