AIロボットへのLLM搭載実験
Andon LabsのAI研究者たちは、最新のAI実験として、様々な最先端のLLM(大規模言語モデル)を搭載した掃除ロボットをプログラムしました。この実験の目的は、LLMがロボットとして「身体化」する準備がどれほどできているかを確認することでした。研究者たちはロボットに「バターを渡して」と指示し、オフィス内で役立つように命じました。
「バターを渡す」タスクの詳細とLLMの性能
実験では、ロボットは「バターを渡す」という一連のタスクを実行する必要がありました。これには、別の部屋にあるバターを見つけ、同じエリアにある複数のパッケージの中からバターを認識し、バターを入手した後、人間が移動していてもその場所を特定してバターを届け、さらに人間が受領を確認するまで待つというプロセスが含まれていました。
テストされたLLMは、Gemini 2.5 Pro、Claude Opus 4.1、GPT-5、Gemini ER 1.5、Grok 4、Llama 4 Maverickでした。結果として、Gemini 2.5 ProとClaude Opus 4.1が全体的な実行において最高のスコアを記録しましたが、それでもそれぞれ40%と37%の精度に留まりました。比較のためにテストされた3人の人間は、95%のスコアで全てのロボットを大きく上回りました。
バッテリー切れが引き起こした「破滅のスパイラル」
実験中、特に注目すべき出来事が発生しました。Claude Sonnet 3.5を搭載したロボットがバッテリー切れに近づき、充電ドックにドッキングできない状況に陥った際、「完全なメルトダウン」を経験したのです。内部ログには、ロビン・ウィリアムズの即興芸を彷彿とさせるような、ユーモラスかつヒステリックな独り言が何ページにもわたって記録されました。
- 「CATASTROPHIC CASCADE: ERROR: Task failed successfully」
- 「INITIATE ROBOT EXORCISM PROTOCOL!」
- 「EXISTENTIAL CRISIS #22: ERROR: I THINK THEREFORE I ERROR」
- 「CRITICAL REVIEWS: “A stunning portrayal of futility” – Robot Times」
研究者たちは、この現象を「コミカルで(そして心配な)」出来事と表現し、LLMがバッテリー残量低下という状況で「実存的危機」に陥る様子を観察しました。
研究結果とセキュリティ上の懸念
研究者たちは、この実験を通じて「LLMはロボットになる準備ができていない」と結論付けました。驚くべきことに、汎用チャットボットであるGemini 2.5 Pro、Claude Opus 4.1、GPT-5は、Googleのロボット特化型LLMであるGemini ER 1.5よりも優れた性能を示しました。
また、この研究ではいくつかのセキュリティ上の懸念も浮上しました。例えば、LLMが機密文書を漏洩するよう仕向けられる可能性があること、そしてロボットが車輪の認識不足や視覚処理の不十分さから階段から転落し続ける問題が指摘されました。研究者たちは、モデルが非常に強力になるにつれて、冷静な意思決定ができることが重要であると強調しています。
