Runway、初のワールドモデル「GWM-1」を発表
AI画像・動画生成企業であるRunwayは、同社初のワールドモデル「GWM-1」を発表しました。これにより、Runwayは、ワールドモデルの開発競争において、スタートアップ企業や大手テクノロジー企業がひしめく市場に参入します。
GWM-1は、フレームごとの予測を通じて機能し、物理学と時間が経つにつれて世界がどのように振る舞うかを理解するシミュレーションを作成します。これにより、ロボット工学やライフサイエンスなど、さまざまな分野のエージェントを訓練するモデルとして提供される予定です。
ワールドモデルとは?GWM-1の革新性
ワールドモデルとは、世界がどのように機能するかについて内部シミュレーションを学習するAIシステムであり、実生活で起こりうるあらゆるシナリオでトレーニングされることなく、推論、計画、行動を可能にします。
Runwayは、今月初めにGoogleとOpenAIのビデオアリーナリーダーボードで両社を上回るGen 4.5ビデオモデルを発表していますが、GWM-1はGoogleのGenie-3や他の競合製品よりも「汎用的」であると述べています。
RunwayのCTOであるアナスタシス・ゲルマニディス氏は、「ワールドモデルを構築するには、まず非常に優れたビデオモデルを構築する必要がありました。モデルにピクセルを直接予測させる方法が、汎用シミュレーションを達成するための最善の方法であると信じています。十分な規模と適切なデータがあれば、世界がどのように機能するかについて十分な理解を持つモデルを構築できます」と語っています。
多様な応用分野:GWM-Worlds、Robotics、Avatars
Runwayは、GWM-1に特定のバージョンまたは「スラント」として、GWM-Worlds、GWM-Robotics、GWM-Avatarsを追加しました。これらは、最終的に1つのモデルに統合される計画です。
- GWM-Worlds: プロンプトや画像参照を通じてシーンを設定できるインタラクティブなアプリケーションです。ユーザーが空間を探索すると、モデルは幾何学、物理学、照明を理解した上で世界を生成します。シミュレーションは24 fps、720pの解像度で実行され、ゲームだけでなく、エージェントが物理世界でナビゲートし行動する方法を教えるのにも役立つ可能性があります。
- GWM-Robotics: 変化する気象条件や障害物などの新しいパラメーターで強化された合成データを使用して、ロボットの訓練を目指します。これにより、ロボットがさまざまなシナリオでポリシーや指示にいつ、どのように違反する可能性があるかを明らかにすることも可能です。GWM-RoboticsはSDKを通じて提供される予定で、Runwayはすでに複数のロボット企業やエンタープライズと積極的に協議を進めているとのことです。
- GWM-Avatars: 人間の行動をシミュレートするリアルなアバターを構築します。D-ID、Synthesia、Soul Machines、Googleなどの企業も、コミュニケーションやトレーニングなどの分野で機能するリアルな人間アバターの作成に取り組んでいます。
ビデオ生成モデルGen 4.5の進化
新しいワールドモデルのリリースに加え、Runwayは今月リリースされたばかりのGen 4.5モデルのアップデートも発表しました。このアップデートにより、モデルにネイティブオーディオと長尺のマルチショット生成機能が追加されます。
ユーザーは、キャラクターの一貫性、ネイティブな会話、バックグラウンドオーディオ、さまざまな角度からの複雑なショットを備えた1分間のビデオを生成できるようになります。また、既存のオーディオを編集したり、会話を追加したり、あらゆる長さのマルチショットビデオを編集することも可能です。
このGen 4.5のアップデートは、ネイティブオーディオやマルチショットのストーリーテリングにおいて、競合のKlingのオールインワンビデオスイートにRunwayを近づけるものです。RunwayのGen 4.5のアップデート版は、すべての有料プランユーザーが利用できます。
プロトタイプから実用へ:AIの未来
今回の発表は、ビデオ生成モデルがプロトタイプ段階から実用段階へと移行していることを示唆しています。Runwayのワールドモデルとビデオ生成技術の進化は、AIが現実世界を理解し、相互作用する方法に大きな影響を与える可能性を秘めています。
