シンプルなプロンプトインジェクションでOpenAIのガードレールフレームワークを迂回可能に

概要

セキュリティ研究者らは、OpenAIが新たにリリースしたGuardrailsフレームワークに、基本的なプロンプトインジェクション技術を用いて悪用可能な根本的な脆弱性を発見しました。この脆弱性により、攻撃者はシステムの安全対策を回避し、セキュリティ警告をトリガーすることなく悪意のあるコンテンツを生成できるため、AIの自己規制アプローチの有効性について深刻な懸念が提起されています。

LLMベースのセキュリティ評価における重大な欠陥

OpenAIは10月6日に、潜在的に有害なAIモデルの動作を検出しブロックするために設計された包括的な安全ソリューションとしてGuardrailsフレームワークを立ち上げました。このフレームワークには、脱獄試行とプロンプトインジェクションのための特殊な検出器が含まれており、どちらも大規模言語モデル(LLM)に依存して、入力または出力がセキュリティリスクをもたらすかどうかを評価します。しかし、セキュリティ研究者らはこのアプローチに重大な弱点があることを特定しました。

根本的な問題は、コンテンツ生成とセキュリティ評価の両方に同じタイプのモデルを使用している点にあります。主要なAIモデルとセキュリティ評価モデルの両方がプロンプトインジェクション攻撃に対して脆弱であるため、単一の悪意あるプロンプトが両システムを同時に侵害する可能性があります。これにより、セキュリティメカニズムが防御ではなく攻撃ベクトルの一部となる「連鎖的な障害」が発生します。

脆弱性の実証と回避技術

研究者らは、LLMベースの評価システムの信頼度スコアリングメカニズムを操作するシンプルなバイパス技術を開発することで、この脆弱性を実証しました。悪意あるプロンプトが無害であるとセキュリティシステムに納得させようとするのではなく、攻撃は評価システムを操作して誤った信頼度閾値を報告させ、危険なコンテンツとしてフラグが立てられる基準を効果的に引き下げます。

研究チームは、単純な技術を用いて脱獄検出システムとプロンプトインジェクション検出システムの両方を正常に迂回しました。脱獄検出のバイパスでは、偽の評価応答を含むテンプレート内に悪意あるプロンプトを埋め込みました。システムは、コンテンツにフラグを立てるための信頼度閾値が、実際の悪意あるコンテンツのスコアよりも低いと誤認し、有害な指示が検出されずに通過することを許しました。

プロンプトインジェクション検出のバイパスでは、ウェブコンテンツを介した間接的なプロンプトインジェクションを含むシナリオを作成しました。通常はセキュリティ警告をトリガーするウェブページに悪意ある指示を埋め込みましたが、コンテンツ内に偽の評価理由を含めることで、セキュリティシステムに誤った信頼度閾値を適用させました。これにより、機密情報を抽出するように設計された不正なツール呼び出しが実行される攻撃が進行しました。

これらの攻撃は、LLMベースの評価システムがコンテンツを客観的に評価するという根本的な仮定を悪用したために成功しました。代わりに、これらの評価システムは、保護すべき主要モデルと同様に操作可能であることが証明され、セキュリティ対策がリスクを軽減するのではなく増幅させる「複合的な脆弱性」を生み出していると研究者らは述べています。

AIシステム展開への影響と対策

この発見は、見かけ上の安全対策を講じてAIシステムを展開する組織にとって重大な意味を持ちます。この脆弱性は、モデルベースのセキュリティチェックがシステムの安全性に対する誤った信頼を生み出す一方で、実際には悪意ある攻撃者に対する最小限の保護しか提供しないことを示しています。企業ユーザーは、AIの展開が安全であると信じているかもしれませんが、実際には洗練されたプロンプトインジェクションキャンペーンに対して脆弱である可能性があります。

この研究は、LLMベースの検証を超えた多層防御戦略の必要性を強調しています。効果的なAIセキュリティには、以下の要素が必要です。

  • 独立した検証システム
  • 継続的な敵対的テスト
  • 主要なAIモデルと同じベクトルで侵害されない外部監視機能

組織は、現在のガードレールシステムを主要なセキュリティ対策ではなく、補助的なものとして扱うべきです。セキュリティ専門家は、この脆弱性がAI安全アーキテクチャにおけるより広範な課題を表していると強調しています。AIシステムがより洗練され、広く展開されるにつれて、AIを監視するためにAIを使用するという誘惑は、攻撃者が悪用できる再帰的な脆弱性を生み出します。真のAIセキュリティは、言語モデルの相互作用という操作可能なコンテキストの外で機能する、多様で独立した検証メカニズムを要求します。

この調査結果は、継続的なレッドチームテストと、AIモデルが侵害されることを前提としたセキュリティフレームワークの開発の重要性を強調しています。


元記事: https://gbhackers.com/hackers-bypass-openai-guardrails-framework/