Neural4D 2o

Search documents
速递|全球首个多模态交互3D大模型来了,GPT-4o都没做到的,它做到了
Z Potentials· 2025-04-14 02:30
在更具挑战性的 3D AIGC 领域, DreamTech 近期推出 Neural4D 2o 多模态大模型, 支持文本及图像输入,实现基于自然语言的交互编辑, 这是全球首个 支持多模态交互的 3D 大模型。 Neural4D 2o 通过文本、图像、 3D 、 motion 等联合训练多模态 transformer encoder 及 3D DiT decoder , 在一个大模型中实现了 3D 生成的上下文一致 性、高精准局部编辑、角色 ID 保持、换装、风格迁移等能力。 此外, Neural4D 2o 也提供了 MCP 协议的支持,部署了 Neural4D Agent(alpha ),帮助用 户更加便捷、高质量地完成 3D 内容创作。 实测效果: 我们上传一张图。 输入 prompt:"保持他的长相、表情和穿着,生成一个全身的Q版形象。" 前些天, GPT-4o的多模态生图上线之后,引发全球AI社区广泛的关注,吉卜力图画全网风靡。 GPT-4o 采用联合文本、图像、语音和视频进行训练,在一个大模型中同时支持了文本、图像、语音等多个模态, 而且其 高度可控,在特征保持,上下文 理解等重要功能使图像生成进入到了 ...