NVIDIAとLakera AI、自律型AIエージェントの安全性のための統合フレームワークを提唱

はじめに

NVIDIAとLakera AIは、企業環境における自律型AIエージェントがもたらす新たな課題に対処するため、画期的な統合セキュリティおよび安全性フレームワークを発表しました。この共同の取り組みは、独立した計画、ツール利用、多段階タスク実行が可能なエージェントシステムを、現実世界での展開においてより安全かつセキュアにするための重要な一歩となります。

この研究は、安全性とセキュリティを、個々のモデルの固定された属性ではなく、エージェントシステム内の複数のコンポーネント間の動的な相互作用から生じる「創発的な特性」として再定義しています。この視点は、エージェントシステムが従来の言語モデルとは根本的に異なる動作をするため、非常に重要です。エージェントシステムは、ツールを呼び出し、外部データにアクセスし、自律的な意思決定を行い、複数のステップでユーザーと対話できるため、従来の評価手法では見落とされがちな新たな攻撃面と潜在的な障害モードを生み出します。

エージェントAIセキュリティにおける重大なギャップ

広範な安全性およびセキュリティ評価を受けてきた孤立した大規模言語モデル(LLM)とは異なり、エージェントシステムはその構成アーキテクチャを通じて新たなリスクを導入します。テスト対象システムには、ツールやAPIを呼び出し、RAG(Retrieval-Augmented Generation)を参照し、外部環境と対話できる複数のサブエージェントが存在する可能性があります。

このフレームワークは、以下の固有のエージェントリスクを特定しています。

  • ツールの誤用
  • カスケードするアクションチェーン
  • 意図しない制御の増幅
  • 従来のセキュリティメトリクスだけでは適切に評価できないマルチエージェントの相互作用

研究者たちは、安全性とセキュリティは、ユーザーへの危害防止を中心とした統合された視点から検討されるべきだと提案しています。「安全性とセキュリティは、単に個々のモデルの固定された属性であるだけでなく、モデル、オーケストレーター、ツール、およびそれらの運用環境内のデータ間の動的な相互作用から生じる創発的な特性でもあります」と論文は強調しています。

提唱されたフレームワークと評価手法

このフレームワークは、従来の安全性およびセキュリティの懸念と、エージェント特有のリスクを統合した「運用リスク分類法」を特徴としており、影響と悪用可能性に応じて優先順位が付けられています。その核となるのは、リスク発見、評価、および軽減のために特殊なAIエージェントを使用する動的評価手法です。

静的なリリース前テストにのみ依存するのではなく、フレームワークは、サンドボックス化されたAI駆動型レッドチームを通じて、継続的で文脈を意識した評価を採用しています。研究者たちは、エージェントワークフロー全体で特定のポイントでのターゲットセキュリティテストを可能にする革新的な方法論である「Agent Red Teaming via Probes (ARP)」を導入しました。このアプローチにより、開発者は、アップストリームの変更とは独立して、脅威がシステムコンポーネントを通じてどのように伝播するかを理解でき、セキュリティの弱点への詳細な可視性を提供します。

NVIDIA AI-Q Research Assistantによる実証

フレームワークの有効性は、NVIDIAのAI-Q Research Assistant (AIRA) の広範なケーススタディを通じて実証されました。AIRAは、企業のデータベースとウェブ検索から情報を合成する高度な研究ツールです。

この研究には、9つのリスクカテゴリにわたる22の異なる脅威シナリオで、10,000回以上の現実的な攻撃と防御の実行が含まれていました。特に、この研究は異なる攻撃伝播パターンを明らかにしました。直接的なユーザー入力攻撃は処理パイプラインを通じて増幅される一方で、外部データソースからの攻撃は段階的に減衰しました。これらの洞察は、ターゲットを絞った防御戦略に直接情報を提供します。

このフレームワークは、ターゲットを絞ったガードレールを通じて約50%のリスク削減を達成し、エージェントバージョン全体でセキュリティ改善を継続的に追跡する方法を示しました。NVIDIAとLakera AIは、Nemotron-AIQ Agentic Safety Datasetをリリースしました。これには、実験からの10,000を超えるトレースファイルが含まれており、研究コミュニティがエージェントの安全性評価を進めることを可能にします。

結論

このフレームワークが文脈に応じた多層防御を重視していることは、堅牢なセキュリティと許容可能なシステムパフォーマンスの両方を維持するための実用的なアプローチを意味します。この共同フレームワークは、自律型AIシステムを保護するための実用的な方法論を確立する上で重要なマイルストーンを示しており、企業AI展開ガイダンスにおける重大なギャップに対処しています。


元記事: https://gbhackers.com/nvidia-and-lakera-ai/