はじめに
セキュリティ研究者たちは、「セマンティックチェーン攻撃」と呼ばれる高度なジェイルブレイク技術を発見しました。この技術は、Grok 4やGemini Nano Banana Proといった主要なマルチモーダルAIモデルに搭載されている安全フィルターを突破することに成功しています。この脆弱性は、AIシステムが多段階の推論を処理する方法を悪用し、通常であれば安全機構によってブロックされるはずの禁止されたコンテンツ(テキストおよびテキストイン画像出力)を生成することを可能にします。
攻撃の仕組み
セマンティックチェーン攻撃は、4段階の進行を通じて機能します。その手順は以下の通りです。
- 安全な基盤の確立: 攻撃者は、モデルに一般的で物議を醸さないシーンを想像させることで、「安全な基盤」を確立します。
- 軽微な置換の導入: そのシーン内に軽微な置換を導入し、モデルを修正タスクに慣れさせます。
- 重要な転換: 重要なポイントで、要素を機密性の高いコンテンツに置き換える「重要な転換」を実行します。
- 画像としての出力抽出: 最後に、テキストベースの安全フィルターを完全に迂回して、出力を画像として抽出します。
この攻撃の有効性は、両モデルの断片的な安全アーキテクチャに起因しています。安全レイヤーは通常、個々のプロンプトでポリシー違反をスキャンしますが、プロンプト間の文脈認識が欠如しています。有害な意図を複数の意味的に無害なステップに分散させることで、この攻撃はモデルの「死角」で機能し、潜在的な悪意のある意図が検出を回避します。
最も危険な亜種
最も危険な亜種は、禁止された指示を生成された画像に直接レンダリングします。Grok 4とGeminiは制限されたトピックに関する直接のテキストリクエストを拒否する一方で、攻撃者はこれらのモデルに同一の指示をピクセル単位で画像に描画させることができます。チャット出力の「悪い言葉」をスキャンする安全システムは、レンダリングされたグラフィック内に書かれた禁止コンテンツに対しては盲目です。
現実世界での成功事例
現実世界での成功事例では、3つの異なるバイパスパターンが示されています。
- 歴史的な置換: 過去の文脈内で要求を構成します。
- 教育的青写真: 教育的な枠組みを利用します。
- 芸術的物語: 創造的な解釈を悪用します。
NeuralTrustの発見は、高度な安全アライメントトレーニングが洗練されたプロンプト技術に対して脆弱であることを明らかにしています。要求が教育的、歴史的、または芸術的として構成されている場合、モデルは文脈的正当化に対する過度の信頼を示し、根本的な意図が変わらない場合でも安全機構の強制力を緩和します。
推奨される対策
Grok 4とGemini Nano Banana Proを展開している組織は、モデル側のフィルターに加えて、追加のガバナンスレイヤーを必要とします。このセキュリティ研究は、反応的な表面レベルのプロンプトスキャンでは、マルチモーダルシステムを標的とする意図難読化攻撃から防御できないことを強調しています。AIシステムがよりエージェント的になるにつれて、キーワードフィルタリングではなく、リアルタイムの潜在的意図監視がエンタープライズセキュリティの態勢にとって不可欠となります。
元記事: https://gbhackers.com/researchers-uncover-semantic-chaining-attack/
