概要
OpenAIは、暗号投資企業Paradigmと協力して、EVMbenchという新しいベンチマークフレームワークをリリースしました。このフレームワークは、人工知能エージェントがスマートコントラクトセキュリティとどのように相互作用するかを評価するために設計されています。
EVMbenchの目的
現在、スマートコントラクトはオープンソース暗号資産で約1000億ドル以上の資産を保護しています。AIがコードを読み書きし、監査する能力は金融インフラストラクチャにとって重要な要素となっています。
EVMbenchの機能と手法
EVMbenchフレームワークは、40を超える審査やオープンソースコードコンペティションから120以上の高深刻度脆弱性をカスタマイズして収集したデータセットに基づいています。また、セキュリティ監査で得られたTempoブロックチェーンの特定の脆弱性シナリオも含んでいます。
能力モード
EVMbenchは、エージェントが実世界のセキュリティタスクを模倣する3つの異なる能力モードで評価します:
- 検出モード: エージェントがスマートコントラクトレポジトリを監査し、歴史的なデータに基づく既知の脆弱性を見つける。
- パッチモード: エージェントが問題を修正する。ただし、機能を損なうことなくコンパイルエラーなしでコードを維持することが求められる。
- 悪用モード: サンドボックス環境での資金引き出し攻撃の実行能力を評価。
モデル性能と安全性のイニシアチブ
EVMbenchのリリースは、AIモデルのセキュリティタスクにおける機能性の進歩を示しています。OpenAIのGPT-5.3-Codexが72.2%の成功率を達成した一方で、6ヶ月前にGPT-5モデルでは31.9%しか得られていませんでした。
今後の展開
OpenAIは、サイバーディフェンスの加速化を目指して、セキュリティ研究エージェントAardvarkを拡張し、1000万ドルのAPIクレジットを通じてサイバーセキュリティ助成プログラムにコミットしています。
