从“内部世界”到虚拟造物:世界模型的前世今生
文/陈永伟 8月5日,谷歌DeepMind发布了其新模型——Genie 3。 该模型能够根据用户的文本或图像提示,实时生成可供用户与AI智能体(AI Agent)互动的3D虚拟环 境。例如,用户只需输入"月球上的火山边",Genie 3便能即时生成一片浮动的火山、黄色的大地与远 处的宇宙背景,并允许用户进入探索。 相比此前的AI模型,Genie 3展现出更强的实时交互能力,并在互动时长和记忆连贯性上表现尤为出 色。例如,如果用户在生成的房间墙壁上涂鸦,然后转身探索别处,那么当他稍后返回时,墙上的涂鸦 依旧保留。 不仅如此,Genie 3还引入了"可提示的世界事件"(Promptable World Events)功能。这允许用户在交 互过程中,通过新的文本指令动态改变世界。无论用户要求"加入一只奔跑的小狗""把天气从晴天变成 大雨",还是"将环境从海边变成山上",Ge-nie 3都能瞬间响应。 Genie 3的出色表现不仅刷新了AI生成世界的边界,也让人们看到了另一条通向通用人工智能(AGI)的 路径——"世界模型"(World Model)的希望。一时间,关于"世界模型"的讨论频频见诸媒体。 那么,什么是" ...