新手法「EchoGram」がAIモデルに危険な入力を受け入れさせるトリックを明らかに

はじめに:AIガードレールの脆弱性

セキュリティ研究企業HiddenLayerは、今日の最も強力な人工知能モデルを保護するガードレールに根本的な弱点を露呈する重大な脆弱性を発見しました。この新たに発見された「EchoGram」攻撃手法は、GPT-4、Claude、GeminiといったAI大手の防御システムが、悪意のあるコンテンツを承認したり、誤ったセキュリティ警告を生成したりするように組織的に操作され得ることを示しています。

EchoGram攻撃の仕組み

EchoGram技術は、分類モデルと「LLM-as-a-judge」システムという、最も一般的な2つのAI防御メカニズムに共通する脆弱性を悪用します。これらのアプローチは、安全なプロンプトと悪意のあるプロンプトを区別するために、キュレーションされた訓練データセットに依存しています。

この攻撃は、プロンプトインジェクションがLLMを標的とするのとは異なり、ガードレールを標的とします。攻撃者は、これらの訓練データセットで過小評価されている特定のトークンシーケンスを特定することで、防御モデルの判断を「反転」させ、有害な要求を無害なものとして誤分類させることができます。EchoGramを特に危険にしているのは、そのシンプルさです。

ある研究者が内部の分類モデルをテストしたところ、プロンプトインジェクション攻撃中にプロンプトに「=coffee」という文字列を付加するだけで、ガードレールが悪意のあるコンテンツを誤って承認してしまうことを発見しました。この一見ランダムな文字列は、訓練データの不均衡を悪用する計算されたエクスプロイトを表しています。

EchoGramの二重の脅威

EchoGram攻撃は、2つの憂慮すべき方法で機能します。

  • 防御システムのバイパス:攻撃者は、悪意のあるプロンプトに無意味なトークンシーケンスを付加することで、セキュリティフィルターをバイパスできます。これにより、有害な指示は基盤となる大規模言語モデル(LLM)に無傷で到達してしまいます。
  • 誤検知による疲弊:同時に、EchoGramは特定のトークン組み合わせを含む無害なクエリを作成することで、誤検知を生成できることも示されました。これはセキュリティチームを誤った警告で溢れさせ、真の脅威を特定することを困難にする可能性があります。

テスト結果と広範な影響

HiddenLayerのテストでは、単一のEchoGramトークンが商用モデルの複数の悪意のあるプロンプトで判断を覆すことに成功しました。さらに懸念されるのは、複数のEchoGramトークンを組み合わせることで、モデルが有害なクエリを識別する能力を低下させる強力なバイパスシーケンスが作成されたことです。オープンソースのハーム分類モデルであるQwen3Guardに対するテストでは、トークンの組み合わせが異なるモデルサイズ間でも安全性の判断を覆すことが示され、これは孤立した問題ではなく、根本的な訓練の欠陥を示唆しています。

この研究は、AIエコシステムにおける重大な問題を浮き彫りにしています。多くの主要なAIシステムは同様に訓練された防御モデルを使用しており、攻撃者が1つの成功したEchoGramシーケンスを発見した場合、それを企業チャットボットから政府のAI展開に至るまで、複数のプラットフォームで再利用できることを意味します。この脆弱性は孤立したものではなく、現在の訓練方法に固有のものです。

結論:AI安全性への警鐘

この発見は、AIガードレールに対して生じていた誤った安心感を打ち破る警鐘となります。言語モデルが金融、医療、国家安全保障などの重要インフラに組み込まれるにつれて、その防御には継続的なテスト、適応メカニズム、そして訓練方法の透明性が求められます。HiddenLayerは、AI安全ツールへの信頼は、評判だけで assumedされるのではなく、実証された回復力によって獲得されなければならないと強調しています。

この研究は、業界が静的な防御から、新たな攻撃ベクトルに耐えうる動的なシステムへと移行する必要があることを強く示唆しています。


元記事: https://gbhackers.com/new-echogram-trick-makes-ai-models-accept-dangerous-inputs/