创智刘鹏飞、Sand.ai曹越，两大AI青年学者团队联手，开源音视频基座模型

开源多模态生成领域，迎来架构级的底层突破。作为演绎级人像音视频的开源基座模型，daVinci-MagiHuman 以 150 亿参数的单流 Transformer 为核心，实现了文本、视频、音频在统一骨干网络下的联合建模，彻底告别了跨注意力和模态专属分支。研发团队介绍这一成果由上海创智学院（SII）GAIR 实验室与 Sand.ai 共同完成。上海创智学院是由顶尖大学、头部企业和科研机构联合建设的新型人才培养机构；其 GAIR 实验室由刘鹏飞博士领导，聚焦生成式人工智能的前沿研究，涵盖多模态视频基座模型、文本大模型预训练及智能体构建等方向。在多模态世界模型方面，实验室已展开了系统性探索：从开源首个原生无扩散的多模态模型 Anole，到提出以生成图像进行思考的新范式 Thinking with Generated Images，再到面向实时交互场景的 LiveTalk，以及面向数字世界理解与模拟的数字基因工作，逐步构建起从多模态生成、视觉推理到实时交互的完整研究链条。近期，该实验室已产出 daVinci-MagiHuman、Data Darwinism、daVinci-Agency、daVin ...