Google DeepMind、AI世界生成ツール「Project Genie」を公開:テキストや画像からゲーム世界を創造

Google DeepMindが「Project Genie」を発表

Google DeepMindは、テキストプロンプトや画像からインタラクティブなゲーム世界を生成できるAIツール「Project Genie」へのアクセスを一般向けに開放しました。この画期的なツールは、Googleの最新世界モデル「Genie 3」、画像生成モデル「Nano Banana Pro」、そして「Gemini」の組み合わせによって駆動されています。

1月29日木曜日から、米国のGoogle AI Ultra加入者は、この実験的な研究プロトタイプを試用できるようになりました。これは、DeepMindがより高性能な世界モデルの開発を急ぐ中で、ユーザーからのフィードバックと訓練データを収集するための広範な取り組みの一環です。

世界モデル競争の激化

世界モデルは、環境の内部表現を生成し、将来の結果を予測し、行動を計画するために使用されるAIシステムです。DeepMindの研究者を含む多くのAIリーダーは、世界モデルが汎用人工知能(AGI)を達成するための重要な一歩であると考えています。

しかし、当面の間、DeepMindのような研究室は、ビデオゲームやその他のエンターテイメントから始まり、シミュレーション内でエンボディドエージェント(ロボット)を訓練する分野へと枝分かれしていく市場投入計画を構想しています。

DeepMindの「Project Genie」のリリースは、世界モデル競争が激化し始めた時期と重なります。昨年後半にはFei-Fei LiのWorld Labsが初の商用製品「Marble」をリリースし、AIビデオ生成スタートアップのRunwayも最近世界モデルを発表しました。また、元MetaのチーフサイエンティストYann LeCunのスタートアップAMI Labsも世界モデルの開発に注力するとされています。

「Project Genie」の機能と課題

「Project Genie」は、「ワールドスケッチ」から始まり、環境とメインキャラクターの両方に対してテキストプロンプトを提供することで世界を生成します。「Nano Banana Pro」がプロンプトに基づいて画像を生成し、それをGenieがインタラクティブな世界の出発点として利用します。既存のワールドを新しい解釈にリミックスしたり、ギャラリーの厳選されたワールドを探索したりすることも可能です。

しかし、DeepMindの研究者たちは、このツールの実験的な性質について率直に語っています。プレイ可能な世界を印象的に生成することもあれば、意図に反する不可解な結果を生み出すこともあり、一貫性に課題があるとのことです。

  • 生成時間の制限:現在、DeepMindは生成とナビゲーションを60秒に制限しています。これは、計算資源の制約によるもので、より多くのユーザーにアクセスを提供するための措置です。
  • 表現の得意・不得意:水彩画やアニメスタイルなど、芸術的なプロンプトに基づく世界生成には優れていますが、フォトリアリスティックな世界や映画のような世界では、しばしばビデオゲームのような見た目になり、現実感に欠ける傾向があります。
  • ナビゲーションの難しさ:W-A-S-Dキーなどによるナビゲーションは、慣れないユーザーにとっては難しい場合があり、反応しないことや誤った方向に進むこともありました。
  • 著作権保護:Googleは昨年Disneyから停止勧告を受けており、Disney関連や著作権で保護されたコンテンツの生成はできません。

今後の展望

DeepMindの研究ディレクターであるShlomi Fruchter氏は、現在の課題を認識しており、チームは現実感の向上インタラクション機能の強化に取り組んでいくと述べています。

「Project Genie」はまだ実験段階のプロトタイプですが、Fruchter氏は「人々が毎日戻ってくるようなエンドツーエンドの製品とは考えていないが、興味深くユニークで、他の方法では実現できない何かの片鱗がすでに見えている」と語っています。これは、AIによる世界生成の未来に向けた重要な一歩となるでしょう。


元記事: https://techcrunch.com/2026/01/29/i-built-marshmallow-castles-in-googles-new-ai-world-generator-project-genie/