16のClaude AIエージェントが協調し、Cコンパイラを開発:Anthropicが示す新たな可能性と限界

AIエージェントがCコンパイラを共同開発:Anthropicの挑戦

Anthropic社の研究者Nicholas Carlini氏は、16のClaude Opus 4.6 AIモデルインスタンスを共有コードベース上で連携させ、最小限の監視の下でゼロからCコンパイラを構築するという画期的な実験を実施しました。2週間にわたり、約2,000回のClaudeコードセッションと約2万ドルのAPI費用を投じて、AIエージェントは最終的に10万行にも及ぶRustベースのコンパイラを開発しました。このコンパイラは、x86、ARM、RISC-Vアーキテクチャ上で起動可能なLinux 6.9カーネルをビルドできる能力を持つと報告されています。

自律的な協調作業:AIエージェントの革新的な開発手法

今回の実験では、Claude Opus 4.6の新機能である「エージェントチーム」が活用されました。各Claudeインスタンスは自身のDockerコンテナ内で動作し、共有のGitリポジトリをクローン。ロックファイルを作成してタスクを主張し、完了したコードを上流にプッシュするというプロセスを繰り返しました。特筆すべきは、オーケストレーションエージェントが存在せず、各インスタンスが次に最も明白な問題を独立して特定し、解決に着手した点です。マージコンフリクトが発生した場合も、AIモデルインスタンスは自力でこれを解決しました。その結果生まれたコンパイラは、PostgreSQL、SQLite、Redis、FFmpeg、QEMUといった主要なオープンソースプロジェクトのコンパイルを可能にし、GCC拷問テストスイートでは99%の合格率を達成。「開発者の究極の試金石」とされるDoomのコンパイルと実行にも成功しました。

達成された偉業と残された課題:AIコンパイラの現状

Cコンパイラは、仕様が明確で包括的なテストスイートが存在し、リファレンスコンパイラもあるため、半自律型AIモデルのコーディングにとって理想的なタスクと言えます。しかし、Carlini氏はコンパイラの明確な限界も指摘しています。例えば、

  • Linuxをリアルモードから起動するために必要な16ビットx86バックエンドが欠けている。
  • アセンブラとリンカにはまだバグがある。
  • 最適化をすべて有効にしても、GCC(最適化無効)よりも効率の低いコードを生成する。
  • Rustコードの品質は機能的ではあるものの、専門のRustプログラマが作成するレベルには達していない。

特に、「新機能やバグ修正が既存の機能を頻繁に破壊する」という点は、人間がコードベースを完全に理解できなくなる状況と共通しており、AIコーディングエージェントが時間とともに一貫性を失うという課題を示唆しています。このモデルは約10万行のコードでこの壁に達し、現在のモデルにおける自律的なエージェントコーディングの現実的な上限を示している可能性もあります。

「自律性」の裏側:人間による入念な環境設計

Anthropicはこれを「クリーンルーム実装」と表現していますが、このフレーミングはやや誤解を招く可能性があります。モデル自体は、GCCやClangを含む膨大な量の公開ソースコードでトレーニングされているため、完全に「クリーン」とは言えません。また、「自律的」という言葉の裏には、Carlini氏による多大な人間側の努力がありました。APIトークン費用だけでなく、モデルのトレーニング費用、そして Carlini氏が費やした「足場作り」の労力は計り知れません。

  • モデルのコンテキストウィンドウがテスト出力によって汚染されるのを防ぐため、簡潔なテストランナーを設計。
  • Claudeが時間感覚を持たず、何時間もテストを実行し続ける問題を解決するため、テストケースの一部のみをサンプリングする高速モードを構築。
  • 16のエージェントが同じLinuxカーネルのバグ修正に固執するのを避けるため、GCCをリファレンスとして活用し、各エージェントが異なるファイルで作業できるように調整。

Carlini氏は、「Claudeは私が与えるどんな問題でも自律的に解決しようとするため、タスク検証者がほぼ完璧であることが重要だ」と強調しており、AIエージェントの能力を最大限に引き出すためには、人間による入念な環境設計と誘導が不可欠であることを示しています。

AI開発ツールの未来:革新と懸念

このプロジェクトは、AIモデルが進化するソフトウェア開発において、並列エージェントがGitを通じて連携するという新しい方法論を提示しました。Carlini氏が開発した、コンテキストを意識したテスト出力、タイムボクシング、並列化のためのGCCオラクルといったエンジニアリング手法は、エージェント型ソフトウェア開発ツールの利用において重要な貢献となる可能性があります。Carlini氏は自身の成果に喜びを感じつつも、「プログラマが個人的に検証したことのないソフトウェアを展開することへの懸念」も表明しており、AIが生成するコードの品質と安全性について、倫理的な議論も深まることを示唆しています。


元記事: https://arstechnica.com/ai/2026/02/sixteen-claude-ai-agents-working-together-created-a-new-c-compiler/