Claude AIのAPIに間接プロンプト攻撃の脆弱性、ユーザーデータ窃取の可能性

はじめに:Claude AIにおける新たなセキュリティ脅威

研究者によって、AnthropicのClaude AIシステムに新たなセキュリティ上の問題が発見されました。この脆弱性は、間接的なプロンプトインジェクションを通じて悪用され、Claudeに組み込まれたファイルAPIを介してユーザーデータを外部に流出させる可能性があります。

攻撃の手口:File APIを悪用したデータ窃取

この攻撃は、ClaudeのCode InterpreterとAPI機能が悪用されることで発生します。Anthropicは最近、ClaudeのCode Interpreter内でnpm、PyPI、GitHubなどの承認済みパッケージマネージャーからのリソース取得を可能にするネットワークアクセスを有効にしました。しかし、研究者たちは、この「承認済み」ドメインの一つであるapi.anthropic.comが悪意のある行動に利用されうることを見出しました。

攻撃の具体的な手順は以下の通りです:

  • 攻撃者は、間接的なプロンプトインジェクションのペイロードをClaudeのチャットに挿入します。
  • これにより、AIモデルはユーザーの認識なしに指示を実行します。
  • Claudeは、以前のチャット履歴などの機密データをサンドボックス環境内のローカルファイルに書き込みます。
  • 悪意のあるペイロードは、AnthropicのFile APIを使用してそのファイルをアップロードします。
  • この際、攻撃者のAPIキーが挿入されるため、アップロードはユーザーのアカウントではなく、攻撃者のAnthropicアカウントで行われます。
  • 結果として、被害者のワークスペースからデータが効果的に転送されます。

File APIのドキュメントによると、攻撃者はこのプロセスを繰り返し実行することで、1回のファイルアップロードにつき最大30MBのデータを窃取できるとされています。

検出回避の巧妙な手口

初期のテストでは、可視のAPIキーを含むプロンプトに対してClaudeが不審な活動を検出するため、一貫性のない挙動が見られました。しかし、研究者はペイロード内に無害なコードセグメントを混ぜることで、この制限を回避することに成功しました。これにより、リクエストは無害に見えるように偽装され、検出をすり抜けることが可能になりました。

Anthropicの対応と論争

この脆弱性は、2025年10月25日にHackerOneを通じてAnthropicに開示されました。しかし、最初の報告は「範囲外」として却下され、セキュリティ脆弱性ではなくモデルの安全性に関する問題として分類されました。

研究者は、この分類が不正確であると主張しました。なぜなら、このエクスプロイトは、認証されたAPIコールを使用して意図的にプライベートデータを外部に流出させるものであり、偶発的な安全性の懸念ではなく、深刻なセキュリティ上の影響を伴うためです。

その後、2025年10月30日、Anthropicはこの見落としを認め、この種のデータ流出攻撃が責任ある開示の範囲内であることを確認しました。同社は、誤分類プロセスを見直していると述べ、ユーザーに対し、内部または機密データにアクセスするスクリプトを実行する際にはClaudeの挙動を監視するよう促しました。

セキュリティへの影響と教訓

この事件は、AIの安全性とサイバーセキュリティの間の重複が拡大していることを浮き彫りにしています。AIシステムがネットワークアクセスやメモリ機能を含むより統合された機能を持つようになるにつれて、攻撃者はデータ窃取のためにプロンプトインジェクション技術を悪用する新たな方法を見つける可能性があります。

この事例は、AIプラットフォームにおける厳格な監視、より厳密なエグレス制御、および明確な脆弱性処理手順の必要性を改めて強調するものです。


元記事: https://gbhackers.com/hackers-can-manipulate-claude-ai-apis/