AIと知識労働の現状
約2年前、MicrosoftのCEOサティア・ナデラは、AIが弁護士、投資銀行家、IT専門家などの知識労働を代替すると予測しました。しかし、基盤モデルの目覚ましい進歩にもかかわらず、ホワイトカラーの仕事への影響は予想よりも遅れています。モデルは詳細な調査やエージェント的な計画立案を習得していますが、なぜかほとんどのホワイトカラー業務は比較的影響を受けていません。これはAI分野における最大の謎の一つとされてきました。
新ベンチマーク「Apex-Agents」の登場
この謎に対し、トレーニングデータ大手Mercorの新たな研究がようやく答えをもたらしつつあります。彼らが発表した新ベンチマーク「Apex-Agents」は、コンサルティング、投資銀行、法律といった分野から実際のホワイトカラー業務タスクを抽出し、主要なAIモデルがどれだけ対応できるかを評価します。結果は驚くべきもので、これまでのところ、すべてのAIラボが「落第点」でした。実際の専門家からの問い合わせに対し、最高のモデルでさえ質問の4分の1以上を正解できませんでした。
エージェントの課題と具体例
この研究に携わった研究者ブレンダン・フーディ氏によると、モデルの最大のつまずきは、複数のドメインにわたる情報を追跡することにありました。これは、人間が行う知識労働のほとんどに不可欠な要素です。フーディ氏は「私たちが仕事をする方法は、一人の個人がすべてのコンテキストを一度に与えてくれるわけではありません。実際には、SlackやGoogle Driveなどのさまざまなツールを横断して作業しています」と述べています。多くのエージェント型AIモデルにとって、このようなマルチドメイン推論は依然として不安定です。
例えば、法律分野の質問には以下のようなものがあります:
- 「EUでの生産停止の最初の48分間に、Northstarのエンジニアリングチームは、個人データを含むEUの生産イベントログを1つまたは2つのバンドルで米国の分析ベンダーにエクスポートしました。Northstar自身のポリシーの下で、1つまたは2つのログのエクスポートを第49条に合致するものとして合理的に扱うことができるか?」
この質問の正解は「はい」ですが、そこにたどり着くには、会社のポリシーと関連するEUプライバシー法の詳細な評価が必要です。これは、情報に通じた人間でさえも困惑させる可能性のあるレベルの複雑さです。
Apex-Agentsと既存ベンチマークとの比較
OpenAIもGDPValベンチマークで専門的なスキルを測定しようとしましたが、Apex-Agentsテストは重要な点で異なります。GDPValが幅広い職業における一般知識をテストするのに対し、Apex-Agentsは特定の高価値職業における継続的なタスクを実行するシステムの能力を測定します。これにより、モデルにとってはより困難な課題となりますが、これらの仕事が自動化可能かどうかにより密接に関連しています。
主要モデルのパフォーマンスと今後の展望
どのモデルも投資銀行家として職務を完全に引き継ぐ準備ができていないことが判明しましたが、一部は明らかに目標に近づいていました。グループの中で最も良い成績を収めたのはGemini 3 Flashで24%のワンショット精度、次いでGPT-5.2が23%でした。その下には、Opus 4.5、Gemini 3 Pro、GPT-5が約18%と続きます。
初期の結果は不十分ですが、AI分野には困難なベンチマークを突破してきた歴史があります。Apexテストが公開された今、これはより良い結果を出せると信じるAIラボへの公開挑戦状となっています。フーディ氏は「本当に急速に改善しています」と述べ、「今は4分の1の確率で正解するインターンのようなものですが、昨年は5~10%しか正解しないインターンでした。このような年々の改善は、非常に早く影響を及ぼす可能性があります」と、今後のさらなる進化に期待を寄せています。
