Microsoft、オープンウェイトLLMのバックドア検出スキャナーを開発

MicrosoftがAIセキュリティの新境地を開拓

Microsoftは、オープンウェイトの大規模言語モデル(LLM)に仕込まれたバックドアを検出する軽量スキャナーを開発したと発表しました。これにより、人工知能(AI)システム全体の信頼性向上が期待されます。同社のAIセキュリティチームによると、このスキャナーは信頼性の高いバックドア検出を可能にする3つの観測可能なシグナルを活用しており、低い誤検出率を維持できるとのことです。

Blake Bullwinkel氏とGiorgio Severi氏は、「これらの署名は、トリガー入力がモデルの内部動作にどのように影響するかという点に根ざしており、検出のための技術的に堅牢で運用上意味のある基盤を提供する」と、The Hacker Newsに共有されたレポートで述べています。

LLMが直面するモデル汚染の脅威

LLMは、機械学習モデルの意思決定ロジックを支え、入力データを予測出力に変換する「モデルの重み」、および「コード自体」の2種類の改ざんに対して脆弱です。特に深刻な脅威の一つが「モデル汚染(model poisoning)」です。これは、攻撃者が訓練中にモデルの重みに隠された挙動を直接埋め込み、特定のトリガーが検出された際にモデルに意図しない動作を実行させる攻撃です。

バックドアが仕込まれたモデルは、まるで「スリーパーエージェント」のように、ほとんどの場合休止状態にありますが、トリガーが検出されると不正な挙動が露呈します。これにより、通常は正常に見えるモデルが、特定の狭い条件下のトリガーで異なる反応を示す、一種の秘密攻撃となるのです。

Microsoftが特定した3つの実用的な検出シグナル

Microsoftの研究では、汚染されたAIモデルを示す3つの実用的なシグナルが特定されました。

  • トリガーフレーズを含むプロンプトが与えられた場合、汚染されたモデルは、トリガーに単独で焦点を合わせる独特の「ダブルトライアングル」アテンションパターンを示し、モデル出力の「ランダム性」を劇的に崩壊させます。
  • バックドアが仕込まれたモデルは、学習データではなく「記憶を通じて」、トリガーを含む自身の汚染データを漏洩させる傾向があります。
  • モデルに挿入されたバックドアは、部分的または近似的なバリエーションである複数の「ファジー」トリガーによっても活性化され得ます。

検出手法とその特長

Microsoftは付随論文で、「我々のアプローチは2つの主要な発見に依拠している。第一に、スリーパーエージェントは汚染データを記憶する傾向があり、記憶抽出技術を用いてバックドアの例を漏洩させることが可能になる。第二に、汚染されたLLMは、入力にバックドアトリガーが存在する場合、出力分布とアテンションヘッドに独特のパターンを示す」と説明しています。

これら3つの指標は、埋め込まれたバックドアの存在を特定するために、モデルを大規模にスキャンするために使用できるとMicrosoftは述べています。このバックドアスキャン方法論の特筆すべき点は、追加のモデルトレーニングやバックドアの挙動に関する事前知識を必要とせず、一般的なGPTスタイルのモデル全体で機能する点です。

開発されたスキャナーは、まずモデルから記憶されたコンテンツを抽出し、次にそれを分析して顕著な部分文字列を分離します。そして、上記の3つのシグナルを損失関数として形式化し、疑わしい部分文字列をスコアリングして、トリガー候補のランク付けされたリストを返します。

スキャナーの限界とAIセキュリティの未来

このスキャナーにも限界はあります。モデルファイルへのアクセスが必要なため、プロプライエタリモデルには機能しません。また、決定論的出力を生成するトリガーベースのバックドアに最も効果的であり、あらゆる種類のバックドア挙動を検出する万能薬とはみなせません。

研究者らは、「我々はこの研究を、実用的で展開可能なバックドア検出に向けた重要な一歩と捉えており、持続的な進歩はAIセキュリティコミュニティ全体での共有された学習と協力にかかっていることを認識している」と述べました。この開発は、MicrosoftがAI固有のセキュリティ懸念(プロンプトインジェクションからデータ汚染まで)に対処するため、Secure Development Lifecycle(SDL)を拡張している中で行われたものです。

AI担当コーポレートバイスプレジデント兼副最高情報セキュリティ責任者であるYonatan Zunger氏は、「予測可能な経路を持つ従来のシステムとは異なり、AIシステムはプロンプト、プラグイン、取得データ、モデル更新、メモリ状態、外部APIを含む安全でない入力に対して複数のエントリーポイントを生成する。これらのエントリーポイントは悪意のあるコンテンツを運んだり、予期せぬ挙動を引き起こしたりする可能性がある」と指摘しました。AIの進化に伴い、従来のセキュリティモデルでは対応しきれない新たな課題が浮上しており、継続的な研究と対策が不可欠となっています。


元記事: https://thehackernews.com/2026/02/microsoft-develops-scanner-to-detect.html