马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦
首先我们要搞清楚一个概念,Project Genie 生成的本质上是一个实时渲染的交互环境。它的技术底座由三部分组成:负责图像控制的 Nano Banana Pro、 负责理解语言指令的 Gemini 模型,以及负责物理反馈的 Genie 3。 简单来说,它的机制和人类做梦的原理很像。 我们在做梦时,大脑会构建一个包含视听触觉的虚拟世界。虽然梦里的逻辑有时会跳跃,但沉浸感很强。Genie 其实就是让计算机学会「做梦」,并且允 许用户进入这个梦境进行互动。 此外,与 ChatGPT 这类基于文本统计规律的模型不同,Genie 3 本质上是一个「物理世界模型」。它虽然没学过物理公式,但通过观看几百万次物体运动 的视频,自己「学会」了重力、惯性这些物理规则。 体验 Project Genie 的方式也非常简单。 Google AI 产品宣传委员 Josh Woodward 就演示了全过程:他先把自己的照片转换成复古游戏风格的角色,然后上传到 Genie,输入「沙漠场景」和角色 描述。 点击生成后,他就能以牛仔的身份在沙漠里自由探索了。 https://www.youtube.com/watch?v=Ow0W3WlJ ...