Cloudflare大規模障害発生:データベース設定変更が原因
セキュリティ企業Cloudflareは今週、過去6年間で最悪のシステム障害に見舞われました。これにより、数多くのウェブサイトやオンラインプラットフォームへのアクセスが約6時間にわたり遮断されました。この大規模障害は、データベースアクセス制御への変更がグローバルネットワーク全体にカスケード障害を引き起こしたことが原因とされています。
同社のCEOであるMatthew Prince氏は、障害が緩和された後に公開された報告書で、今回のサービス中断はサイバー攻撃によるものではないと明言しました。彼は「この問題は、サイバー攻撃や悪意のある活動によって直接的または間接的に引き起こされたものではありません。代わりに、データベースシステムの一つのパーミッション変更によって引き起こされ、その結果、データベースが当社のボット管理システムが使用する『フィーチャーファイル』に複数のエントリを出力したことが原因です」と述べています。
障害の詳細と根本原因
障害はUTC時間11時28分に始まりました。定期的なデータベースパーミッションの更新が、Cloudflareのボット管理システムに過剰なサイズの構成ファイルを生成させ、重複したエントリが含まれていたことが判明しました。このファイルは、システムの組み込みサイズ制限を超過しており、Cloudflareネットワーク全体のトラフィックルーティング中にソフトウェアをクラッシュさせました。
具体的には、パーミッション変更後にデータベースクエリが重複したカラムメタデータを返し、フィーチャーファイルが約60フィーチャーから200を超えるフィーチャーへと倍増しました。これは、無制限のメモリ消費を防ぐために設計された200フィーチャーのハードコードされた制限を超えていました。この過剰なサイズのファイルがネットワークマシン全体に伝播した際、ボット管理モジュールのRustコードがシステムパニックと5xxエラーを引き起こし、トラフィック処理を担うコアプロキシシステムがクラッシュしました。
復旧と影響範囲
Cloudflareのエンジニアが根本原因を特定し、問題のあるファイルを以前のバージョンに置き換えた後、コアトラフィックはUTC時間14時30分までに正常に戻りました。そして、UTC時間17時06分までには、すべてのシステムが完全に稼働状態に戻りました。
この障害は、CloudflareのコアCDNおよびセキュリティサービス、Turnstile、Workers KV、ダッシュボードアクセス、メールセキュリティ、アクセス認証などに影響を及ぼしました。Prince氏は「お客様とインターネット全体に与えた影響に対し、深くお詫び申し上げます。インターネットエコシステムにおけるCloudflareの重要性を鑑みると、当社のシステムにおけるいかなる障害も容認できるものではありません」と付け加えました。
過去の障害との比較と業界の動向
Prince氏は、今回の障害が「Cloudflareにとって2019年以来最悪の障害」であると強調しました。「ダッシュボードが利用できなくなった障害や、新機能が一時的に利用できなくなった障害はありましたが、この6年以上で、ネットワークを通るコアトラフィックの大部分が停止したような障害は他にありませんでした」と述べています。
Cloudflareは今年6月にも、Zero Trust WARP接続の問題やAccess認証の障害を引き起こし、Google Cloudインフラストラクチャにも影響を及ぼした大規模な障害を軽減していました。また10月には、Amazonも主要なDNS障害によって引き起こされた停止に対処しており、Amazon Web Services (AWS) クラウドコンピューティングプラットフォームを使用する数百万のウェブサイトに接続障害が発生していました。
