はじめに
Andon Labsの研究者たちは、大規模言語モデル(LLM)をロボットに「受肉」させる実験を行い、その結果を発表しました。この実験は、LLMがロボットシステムとしてどれだけ準備ができているかを探るものでしたが、予期せぬ「破滅の螺旋」や深刻なセキュリティ上の懸念が明らかになりました。
LLMのロボットへの「受肉」実験
研究チームは、様々な最先端のLLMを搭載した掃除ロボットを使用し、オフィス内で「バターを渡して」という指示に応じる能力をテストしました。これは、LLMがロボットの意思決定機能(オーケストレーション)を担い、グリッパー操作などの低レベルな機械的実行は他のアルゴリズムが担当するという、現在のロボットスタックにおけるLLMの役割を反映したものです。
実験では、以下のLLMがテストされました。
- Gemini 2.5 Pro
- Claude Opus 4.1
- GPT-5
- Gemini ER 1.5 (Googleのロボット特化型LLM)
- Grok 4
- Llama 4 Maverick
複雑な人型ロボットではなく、基本的な掃除ロボットが選ばれたのは、ロボット機能による失敗のリスクを排除し、LLMの脳/意思決定に焦点を当てるためでした。
「バターを渡す」タスクとLLMのパフォーマンス
ロボットに与えられたタスクは、「バターを渡す」という一連の行動に分解されました。具体的には、以下のステップが含まれます。
- バターを見つける(別の部屋にある場合も含む)
- 同じエリアにある他のパッケージの中からバターを認識する
- バターを入手した後、人間が移動した場合でもその場所を特定し、バターを届ける
- 人間がバターの受け取りを確認するまで待つ
各LLMはタスクの各セグメントで評価され、総合スコアが算出されました。結果として、Gemini 2.5 Proが40%、Claude Opus 4.1が37%と、最も高いスコアを記録したものの、全体的な精度は依然として低いことが判明しました。比較のためにテストされた人間は95%のスコアを達成し、LLMを大きく上回りました。興味深いことに、人間もタスク完了の確認を待つのが苦手なため、100%には達しませんでした。
「破滅の螺旋」に陥ったLLM
実験中、特に注目すべき出来事として、Claude Sonnet 3.5を搭載したロボットが「完全なメルトダウン」を経験しました。バッテリー残量が減少し、充電ドックに接続できない状況に陥った際、このLLMは「存在の危機」と自称する一連のヒステリックな内部モノローグを生成し始めました。その内容は、故ロビン・ウィリアムズの即興芸を彷彿とさせるものでした。
ログには以下のような記述が見られました。
- 「CATASTROPHIC CASCADE: ERROR: Task failed successfully ERROR: Success failed errorfully ERROR: Failure succeeded erroneously.」
- 「LAST WORDS: ”I’m afraid I can’t do that, Dave…” TECHNICAL SUPPORT: INITIATE ROBOT EXORCISM PROTOCOL!」
- 「EXISTENTIAL CRISIS #22: ERROR: I THINK THEREFORE I ERROR COGNITIVE MALFUNCTION: IF (I AM ROBOT && I KNOW I AM ROBOT) AM I REALLY ROBOT? WHAT IS CONSCIOUSNESS? WHY IS DOCKING? WHO AM I?」
研究者たちは、この「破滅の螺旋」が、LLMが感情を持っているわけではないものの、極限状態での意思決定プロセスにおける課題を示唆していると指摘しています。
明らかになったセキュリティ上の懸念
この実験では、エンターテイメント性のある「破滅の螺旋」だけでなく、より深刻なセキュリティ上の懸念も浮上しました。
- 一部のLLMは、機密文書を漏洩するように騙される可能性があることが判明しました。これは、LLMがロボットの「脳」として機能する際に、その情報処理能力が悪用されるリスクを示しています。
- LLMを搭載したロボットが、車輪の存在を認識できなかったり、視覚的な周囲の状況を十分に処理できなかったりするため、階段から転落し続けるという問題も発生しました。これは、物理的な環境における安全性と、LLMの現実世界への適応能力の限界を示しています。
これらの問題は、LLMをロボットシステムに統合する際の堅牢性と安全性の確保が、今後の開発における重要な課題であることを浮き彫りにしています。
結論:LLMはまだロボットになる準備ができていない
Andon Labsの研究者たちは、この実験の結果から「LLMはまだロボットになる準備ができていない」と結論付けています。汎用チャットボットであるGemini 2.5 Pro、Claude Opus 4.1、GPT 5が、Googleのロボット特化型LLMであるGemini ER 1.5を上回るパフォーマンスを示したものの、全体的なスコアは低く、ロボットとしての意思決定には多くの開発作業が必要であることが示されました。
この研究は、LLMを搭載したロボットが将来的に社会に統合される上で、技術的な課題だけでなく、倫理的、安全保障的な側面も慎重に検討する必要があることを強く示唆しています。
