AI駆動型脅威ハンティングの成否はデータプラットフォームとパイプラインにかかっている

現代の脅威ハンティングにおけるデータ中心の基盤

サイバーセキュリティの世界では、AIが脅威ハンティングの未来であると言われています。しかし、その裏には、ほとんどのAIが片手で縛られた状態で動作しているという「汚れた秘密」があります。研究者たちは、AIモデルはそのデータパイプラインの質に左右されると主張しており、この原則は学術的な機械学習にとどまらず、サイバーセキュリティにも強力に適用されます。

AI、自動化、または人間の調査によって行われる脅威ハンティングは、それが依拠するデータインフラストラクチャの有効性によってのみ効果を発揮します。セキュリティチームは、既存のデータレイク上にAIを構築したり、新しい検出モデルを調整したりすることに注力しがちですが、より根本的な問題である「データそのもの」に対処していません。

エンドポイント、クラウド、ID、SaaS、コードリポジトリなど、切断されたシステム間でテレメトリーがサイロ化されている場合、アナリストは断片からコンテキストを組み立てるしかありません。すべてのデータを適切な変換なしに同じプラットフォームに投入すると、人間とAIの両方を圧倒する可能性があります。最も高度なアルゴリズムでさえ、不完全または一貫性のないデータを克服することはできません。貧弱な入力で学習または動作するAIは、常に貧弱な結論を導き出します。そして、人間主導のAI拡張型脅威ハンティングも例外ではありません。

統合されたデータが重要な理由

統合され、相関付けられたデータプラットフォームは、状況を一変させます。すべてのデータを一箇所に集めることで、ノイズが減少し、個々のシステムが隠していたパターンを可視化できるようになります。この情報を事前に変換し、相関させることで、大規模言語モデル(LLM)やその他のAI駆動型ツールによる利用も容易になります。

AIは、構造やコンテキストを理解しようと計算能力やトークンを浪費する代わりに、実際の行動の理解に集中できます。統合されたデータは、接続されたアイデンティティが自然に現れることを可能にします。単一のユーザーが、AWSではIAMプリンシパルとして、GitHubではコミッターとして、Google Workspaceではドキュメント所有者として、それぞれ異なる名前で表示されることがあります。これらのシグナルのいずれか一つだけを見ても、真実の断片しか得られません。しかし、それらをまとめて見れば、行動の明確性が得られます。

Google Workspaceから数十のファイルをダウンロードすることは、単独では疑わしいように見えるかもしれませんが、同じアイデンティティが数分後に公開S3バケットを作成し、数十のリポジトリを個人のラップトップにクローンする場合、その活動は明らかに悪意のあるものとなります。

相関による脅威ハンティング

ログ、設定、コードリポジトリ、IDシステムからのデータがすべて一箇所に集まると、かつては数時間かかったり、不可能だったりした相関関係が即座に明らかになります。例えば、盗まれた短命な認証情報に依存するラテラルムーブメントは、検出されるまでに複数のシステムを横断することがよくあります。

  • 侵害された開発者のラップトップは、複数のIAMロールを引き受け、新しいインスタンスを起動し、内部データベースに到達する可能性があります。エンドポイントログはローカルの侵害を明らかにしますが、IAMとネットワークデータがなければ、侵入の範囲を証明する方法はありません。
  • 同様に、侵害されたGitHub Actionトークンを使用してクラウドにシャドウ管理者アカウントを作成する攻撃者は、CI/CDログと設定およびIDの変更を接続しなければ気づかれないでしょう。
  • 広範なOAuthスコープを持つサードパーティアプリが、侵害されたユーザーアカウントを通じてデータを流出させる場合、統合されたSaaSアクセスログとOAuth同意履歴のみが真のベクトルを明らかにできます。

これらは抽象的な仮説ではありません。Salesloft/Driftの侵害では、攻撃者が最初に侵害されたGitHubアカウントを介してアクセスを獲得し、その後DriftのAWS環境でOAuthトークンを取得し、信頼されたDrift-to-Salesforce統合を通じて数百の接続された顧客環境にアクセスしたことが示されました。各プラットフォームのログは、フォレンジックチームがGitHub、ID、およびクラウド環境全体で活動を相関させるまで、正常に見えた可能性が高いです。

忠実度と決定論

データパイプラインの品質は、脅威ハンティングの忠実度を直接決定します。適切に行われれば、適切なデータパイプラインは重複を減らし、忠実度を犠牲にすることなくコストを削減します。AI駆動型システムは、確率的な推測ではなく、決定論的な回答を生成するためにその忠実度に依存します。データ品質の向上は、あらゆるアーキテクチャの調整よりもAIのパフォーマンスに大きな影響を与えます。これは検出と対応にも同じことが言えます。

脅威ハンティングは、根本的に正確な質問をし、信頼できる回答を得ることです。接続された高忠実度のデータ基盤がなければ、すべてのクエリは不完全です。現代のセキュリティアーキテクチャは、量よりも明確性を優先し、人間と機械の両方が単一の正確な情報源から動作することを保証する必要があります。

戦略的なストレージとAIへの準備

脅威ハンティングプラットフォームは、ホットストレージとコールドストレージにどのようなデータを保存するかについても戦略的であるべきです。すべてのログ、トレース、またはイベントが即座にクエリ可能である必要はありません。重要なのは、IDの変更、クラウド構成、ソース管理活動の高価値テレメトリーがすぐにアクセス可能であることを保証し、履歴データや低シグナルデータはより深いフォレンジック用途のために階層化できることです。

ストレージ戦略がスマートであればあるほど、アナリストとモデルは、無関係なノイズに計算やコストを浪費することなく、より迅速に対応できます。データがすべて一箇所にあれば、LLMのユースケースにも本質的に対応しやすくなります。堅牢なデータパイプラインは、効果的なコンテキストエンジニアリングの一形態です。

Anthropicのエンジニアが示したように、最高のAI成果は、適切なデータ、適切なタイミング、適切なコンテキストを供給するプラットフォームから生まれますが、多すぎてもいけません。モデルに適切に構造化された関連性の高い情報を提供することで、不必要な詳細に溺れたり、重要な事実が不足したりすることなく、問題の推論に集中できます。これは人間にも同じことが言えます。最高の分析者でさえ、ノイズに圧倒されたり、コンテキストが不足したりすると、効果が低下します。データパイプラインがコンテキストの精度を考慮して設計されていれば、AI脅威ハンティングは真にスケールアップできます。

洞察を優位性へ

敵対者がかつてない速さで動いている今、勝利する組織は、環境全体をリアルタイムで把握できる組織です。AI対応の脅威ハンティング用データプラットフォームを構築することは、検出速度だけでなく、不確実性を理解に変えることでもあります。統合されたデータは統一されたビジョンを意味し、統一されたビジョンはプロアクティブな防御の基盤です。データエンジンが忠実度、スケール、AI対応のために調整されていれば、脅威ハンティングはよりシャープに、より速く、より正確になります。


元記事: https://www.cybersecuritydive.com/spons/your-ai-driven-threat-hunting-is-only-as-good-as-your-data-platform-and-pip/804789/