通用实时世界模型PixVerse R1发布
Huan Qiu Wang Zi Xun·2026-01-16 01:41

PixVerse R1通过三大核心技术创新,系统性解决了高分辨率视频实时生成的世界性难题。首先是Omni 原生多模态基础模型。该模型采用统一的Transformer架构,将文本、图像、音频与视频融合为单一生成 序列,实现了端到端的跨模态理解与生成,并在原生分辨率下训练,保障了生成内容的一致性与真实 感。 其次是自回归流式生成机制。该机制通过引入记忆增强注意力模块,攻克了长视频中角色、物体状态与 环境逻辑的长期一致性难题,可生成任意长度的视频内容,并允许用户在生成过程中随时插入新指令, 实现动态调整叙事的"流式交互"。 最为关键的是瞬时响应引擎。该引擎通过时间轨迹折叠、引导校正等创新方法,将传统扩散模型所需的 50多次采样步数压缩至1到4步,计算效率提升数百倍,从而让动态画面达到人眼可感知的"即时"响应水 平,为高并发服务与未来终端部署奠定了基础。 来源:科技日报 科技日报记者 都芃 1月14日,人工智能企业爱诗科技在北京发布了全球首个支持1080P分辨率的通用实时世界模型—— PixVerse R1。该模型将视频生成延迟从"秒级"降至"即时",实现了"所想即所见"的实时交互体验,推动 在AIGC(人工智能生成 ...