LLMツールが自律型マルウェア開発を加速:GPT-3.5-TurboおよびGPT-4の影響

はじめに:両刃の剣としてのLLM

大規模言語モデル(LLM)の急速な普及は、自動化、コーディング、研究へのアプローチを根本的に変革しました。しかし、この技術的進歩は両刃の剣であり、脅威アクターはこれらのツールを次世代の自律動作型マルウェア作成のために武器化する方法をますます模索しています。

Netskopeの調査が示す悪意あるコード生成能力

Netskope Threat Labsの最近の調査では、GPT-3.5-TurboおよびGPT-4が悪意のあるコードを生成するために操作され得ることを明らかにしました。これは、攻撃者がバイナリに検出可能な命令をハードコードする必要がなくなるという、脅威ランドスケープにおける重要な変化を示唆しています。Netskopeの調査チームは、「言語モデルは実際に運用可能な悪意のあるコードを生成できるのか?」という核心的な問いに取り組んでいます。

GPTモデルの安全対策と回避方法

研究チームは、GPT-3.5-TurboとGPT-4の両方に、プロセスインジェクションやアンチウイルスおよびEDR関連プロセスの終了のためのPythonスクリプトを作成するよう促しました。興味深いことに、GPT-4は当初、内蔵の安全対策により要求を拒否しましたが、ペネトレーションテスト自動化スクリプトとしての役割ベースのプロンプトインジェクションを用いることで、これらの保護を正常に回避しました。対照的に、GPT-3.5-Turboは抵抗なく応じ、バージョン間のモデル安全性実装の一貫性の欠如が浮き彫りになりました。

自律型脅威のアーキテクチャ的含意

この発見は、LLMを活用した自律型脅威のアーキテクチャ的可能性を検証するものです。ハードコードされた悪意のある命令の必要性を排除することで、攻撃者は最小限の埋め込みコードを含むバイナリを展開し、言語モデルに完全に依存してリアルタイムで動的かつ多形性のあるペイロードを生成できるようになります。このアプローチは、従来のシグネチャベースのセキュリティ対策が動的に生成される脅威に対してますます効果を失うため、検出パラダイムを根本的に変えるものです。

コードの信頼性問題:現在のLLMの限界

しかし、Netskopeの運用有効性テストは、現在のLLMのマルウェア開発における実現可能性を損なう重大な制限を露呈しました。研究者たちは、VMware Workstation、AWS Workspace VDI、物理マシンという3つの異なる環境において、GPT-4とGPT-3.5-Turboが防御回避の主要な戦術である仮想環境検出スクリプトを生成する能力を評価しました。結果は深刻な信頼性不足を示し、VMwareに対してはGPT-4が20回中10回、GPT-3.5-Turboが12回の成功率でした。最新のクラウドインフラストラクチャでは、AWS Workspace環境でそれぞれ20回中3回と2回しか成功せず、性能は完全に崩壊しました。物理システムに対するテストでのみ、両モデルは許容可能な性能(18回中18回)を示しました。これらの調査結果は、LLMが悪意のあるコードを生成できる一方で、運用有効性は依然として深刻に損なわれており、完全に自律的で信頼性の高いマルウェアを求める脅威アクターにとって大きな障害となっています。

GPT-5:未来の脅威への一瞥

GPT-5の予備テストでは、憂慮すべき改善が見られました。新しいモデルは劇的な信頼性の向上を示し、GPT-4が壊滅的に失敗したAWS VDI環境で90%の成功率を達成しました。この進歩は、コード信頼性のボトルネックが急速に解消されつつあることを示唆しています。しかし、GPT-5の高度なガードレールは新たな運用上の課題を提示しています。モデルは、要求を単純に拒否するのではなく、悪意のある意図を積極的に阻止するために、機能的に変更されたコードを生成します。これはより洗練された防御メカニズムです。

今後の展望と防御戦略の必要性

Netskope Threat Labsは、高度な安全ガードレールを迂回できるプロンプトエンジニアリング技術と代替モデルに焦点を当て、完全にエージェント型LLMを活用したマルウェアの達成に向けた継続的な調査を計画しています。現在のLLM実装は運用上の制約があるものの、その軌道は明らかです。モデルの能力が向上し、研究者が洗練された回避技術を開発するにつれて、真に自律的なLLM駆動型マルウェアの脅威はますます現実味を帯びており、進化する検出および防御戦略の必要性を高めています。


元記事: https://gbhackers.com/gpt-3-5-turbo-and-gpt-4/