Workflow
视频生成告别“瞬移变形”,群核科技Hugging Face登顶背后:空间语言改写AI物理世界规则

AIGC技术正从文本、图像生成向更复杂的3D空间与视频领域延伸,但现有模型普遍面临两大核心挑 战:一是对物理世界空间结构的理解不足,导致3D场景生成缺乏逻辑性;二是视频创作中因视角切换 引发的时空一致性问题。 "何时人工智能从数字世界走向物理世界呢?我们认为空间智能就是这里面非常关键的桥梁。"群核科技 联合创始人兼董事长黄晓煌表示。 而对于空间智能来说,它的核心是让AI真正理解物理世界的"语言":要让AI学会用"空间语言"描述世 界,这是它走进物理世界的第一步。 此次发布的两款模型分别针对文章开头所提的两大痛点——SpatialLM 1.5通过"空间语言"实现3D场景 的结构化生成与交互,SpatialGen则依托3D高斯技术保障多视角图像的空间连贯性。 前者生成的场景富含物理正确的结构化信息,支持用户通过对话交互系统SpatialLM-Chat进行可交互场 景的端到端生成,能够有效解决机器人训练数据难题;后者,专注于"生成与呈现", 可根据文字描 述、参考图像和3D空间布局,生成具有时空一致性的多视角图像。 据介绍,传统多模态模型(如GPT-4V、通义千问VLM)通过将图像切割为视觉Token与文本对齐,实 ...