登上Nature!智源研究院推出AI全能选手——Emu3,一统多模态学习
生物世界·2026-01-31 03:05
撰文丨王聪 编辑丨王多鱼 排版丨水成文 AI 模型 能否像人类一样,同时理解 文字 、 图像 、 视频 甚至 动作 ?过去,AI 领域需要针对不同任务使 用不同模型——例如用扩散模型生成图像,用组合架构处理视觉语言理解。 而现在, 北京智源人工智能研究院推出了一款多模态大模型—— Emu3 ,或将改变这一局面。 该研究以: Multimodal learning with next-token prediction for large multimodal models ( 通过预测 下一个词元进行多模态学习的多模态大模型) 为题,于 2026 年 1 月 28 日在线发表于 Nature 期刊, 北 京智源人工智能研究院 黄铁军 、 王仲远 、 王鑫龙 为论文共同通讯作者,据悉,这也是 我国科研机构主 导的大模型成果首次在 Nature 正刊发表。 Emu3 仅基于 预测下一个词元 (Next-token predictio,NTP) ,就统一了 大规模文本、图像和视频的 多模态学习, 它不仅在生成和理解任务上媲美专用模型,还展示了视频生成、机器人操作等强大能力,这 一成果对构建可扩展、统一的 多模态智能系 ...