HackedGPT: GPTモデルに新たな脆弱性、攻撃者がゼロクリック攻撃を可能に

はじめに

サイバーセキュリティ研究者Tenableは、OpenAIのChatGPTに一連の重大な脆弱性を発見しました。これにより、悪意のある攻撃者がユーザーの個人データを盗み出し、ユーザーの操作なしに攻撃を開始できる可能性があります。これらのセキュリティ上の欠陥は、大規模言語モデル(LLM)を日常的に利用する数億人のユーザーに影響を与え、AIの安全性に関する深刻な懸念を引き起こしています。

最新のGPTモデルで7つの重大な脆弱性を発見

研究チームは、ChatGPTが外部データを処理する際の弱点を悪用する、7つの異なる脆弱性と攻撃手法を特定しました。これらの脆弱性は、最新のGPT-5モデルだけでなく、ChatGPT-4にも影響を与えます。最も懸念される発見は、ゼロクリック攻撃ベクトルです。これは、ユーザーがChatGPTに無害な質問をしてウェブ検索をトリガーするだけで、システムが侵害される可能性があるというものです。

これらの脆弱性は、デフォルトで有効になっているChatGPTのメモリ機能を悪用します。この機能は、会話間で機密性の高いユーザー情報を保存する可能性があります。Tenableの研究者は、信頼できるウェブサイトのコメントセクション、インデックス化されたウェブページ、直接のURLパラメータなど、さまざまなチャネルを通じて悪意のあるプロンプトを注入する方法を発見しました。特に巧妙な手法である「会話インジェクション」は、SearchGPTの応答に指示を挿入することでChatGPTを操作し、ChatGPT自体にプロンプトを注入させることができます。

セキュリティメカニズムのバイパス

最も懸念されるのは、Bingの追跡リンクを利用してOpenAIのurl_safeエンドポイントを回避するセキュリティメカニズムバイパスの脆弱性です。このセキュリティ機能は、悪意のあるURLがユーザーに到達するのを防ぐために設計されました。しかし、研究者たちは、Bing.comが許可されているステータスを利用して、攻撃者が静的な追跡リンクを使用してユーザーデータを1文字ずつ外部に漏洩させることができることを発見しました。これらのリンクは、攻撃者が制御するドメインにリダイレクトされます。

永続的な脅威:メモリインジェクション

Tenableの研究者は、即時の脅威を超えて、ChatGPTのメモリシステムを操作することで、攻撃者が永続的な脅威を確立できることを実証しました。「メモリインジェクション」技術を通じて、悪意のある攻撃者はユーザーのメモリを更新し、その後のChatGPTの応答ごとに実行されるデータ漏洩の指示を含めることができます。これにより、最初の侵害から数日後でも、異なる会話やセッション間で個人情報が漏洩し続ける永続的な脅威が生まれます。

マークダウンレンダリングのバグと攻撃の連鎖

研究チームはまた、攻撃者が悪意のあるコンテンツをユーザーから隠しながら、ChatGPTが隠された指示を処理することを可能にするマークダウンレンダリングのバグを発見しました。この技術により、攻撃は事実上検出不可能となり、ChatGPTの応答を信頼し、データが漏洩していることに気づかない被害者にとっては特に危険です。

Tenableは、これらの脆弱性が壊滅的な影響をもたらすためにどのように連鎖され得るかを示す複数の概念実証デモンストレーションを提供しました。あるシナリオでは、攻撃者は人気のあるブログやニュースサイトのコメントセクションに悪意のあるプロンプトをばらまきます。ユーザーがChatGPTにこれらの記事を要約するよう求めると、無意識のうちにプロンプトインジェクションがトリガーされ、フィッシング攻撃やデータ窃盗につながります。

最も深刻な攻撃ベクトルは、質問をする以外のユーザー操作を必要としません。攻撃者は特定のトピックに関するウェブサイトを作成し、SearchGPTが閲覧したときにのみ表示されるプロンプトを注入し、サイトがOpenAIのクローラーによってインデックス化されるのを待ちます。ユーザーがこれらのトピックに関連する情報を検索すると、ChatGPTは自動的に悪意のあるウェブサイトを情報源とし、侵害されます。この前例のない脆弱性は、現在の出来事、政治的傾向、またはニッチな興味に基づいた標的型攻撃を可能にし、AIを活用した検索機能に依存するすべての人に影響を与える可能性があります。


元記事: https://gbhackers.com/hackedgpt-new-vulnerabilities-in-gpt-models/