OpenAI Launches EVMbench: 新しいフレームワークでブロックチェーンの脆弱性を検出・悪用

検出モード: エージェントがスマートコントラクトレポジトリを監査し、歴史的なデータに基づく既知の脆弱性を見つける。
パッチモード: エージェントが問題を修正する。ただし、機能を損なうことなくコンパイルエラーなしでコードを維持することが求められる。
悪用モード: サンドボックス環境での資金引き出し攻撃の実行能力を評価。

概要

OpenAIは、暗号投資企業Paradigmと協力して、EVMbenchという新しいベンチマークフレームワークをリリースしました。このフレームワークは、人工知能エージェントがスマートコントラクトセキュリティとどのように相互作用するかを評価するために設計されています。

現在、スマートコントラクトはオープンソース暗号資産で約1000億ドル以上の資産を保護しています。AIがコードを読み書きし、監査する能力は金融インフラストラクチャにとって重要な要素となっています。

EVMbenchフレームワークは、40を超える審査やオープンソースコードコンペティションから120以上の高深刻度脆弱性をカスタマイズして収集したデータセットに基づいています。また、セキュリティ監査で得られたTempoブロックチェーンの特定の脆弱性シナリオも含んでいます。

EVMbenchは、エージェントが実世界のセキュリティタスクを模倣する3つの異なる能力モードで評価します：

EVMbenchのリリースは、AIモデルのセキュリティタスクにおける機能性の進歩を示しています。OpenAIのGPT-5.3-Codexが72.2％の成功率を達成した一方で、6ヶ月前にGPT-5モデルでは31.9％しか得られていませんでした。

OpenAIは、サイバーディフェンスの加速化を目指して、セキュリティ研究エージェントAardvarkを拡張し、1000万ドルのAPIクレジットを通じてサイバーセキュリティ助成プログラムにコミットしています。

元記事: https://gbhackers.com/openai-launches-evmbench/