Workflow
Emu3.5模型
icon
Search documents
京产大模型成果登上国际顶级期刊
Xin Lang Cai Jing· 2026-01-29 20:54
2018年以来,GPT采用"预测下一个词元(Next-token prediction,NTP)"的自回归路线,实现了语言大 模型重大突破,开启了生成式人工智能浪潮。而擅长同时处理文字、图片、视频等多种形态信息的多模 态模型主要依赖对比学习、扩散模型等专门路线。在此背景下,一个重要问题困扰行业数年:能否用一 种简单、统一的方法即自回归路线,让AI(人工智能)同时学会高效地处理文字、图片和视频? 智源这项名为"通过预测下一个词元进行多模态学习的多模态大模型"的成果给出了肯定的答案。该成果 表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,这对于确立自回 归成为生成式人工智能统一路线具有重大意义。 (来源:千龙网) 值得一提的是,基于这一核心路径的迭代版本Emu3.5模型,已展现出对物理世界运行规律的初步学习 与模拟能力,能够尝试预测场景的下一步变化,为发展更通用、更接近人类认知方式的大模型与智能体 奠定了基础。 当地时间1月28日,北京智源人工智能研究院的一项突破性研究成果在国际顶级学术期刊《自然》 (Nature)上线,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。 据悉, ...
智源多模态大模型成果登上Nature杂志
Bei Jing Shang Bao· 2026-01-29 05:02
该研究推出的Emu3模型,核心突破在于仅采用"预测下一个词元"的自回归路线,将文本、图像、视频 统一到同一表示空间,通过单一Transformer架构实现多模态数据的联合训练,无需依赖对比学习、扩散 模型等专用路线。实验显示,其在文生图、视觉语言理解、视频生成等任务上的性能,可与各类成熟的 任务专用模型相媲美,还能拓展至图文交错生成、机器人操作建模等场景。 Nature编辑点评指出,该成果证明了自回归路线在多模态领域的通用性,对构建可扩展、统一的多模态 智能系统具有重要意义。后续迭代的Emu3.5版本进一步实现"预测下一个状态"的能力跃迁,获得了可 泛化的世界建模能力。 据悉,Emu系列模型自2022年启动研发,历经多次迭代,智源团队已开源视觉分词器等关键技术,并通 过大规模实验揭示了多模态自回归模型的训练特性。此次成果不仅确立了自回归作为生成式人工智能统 一路线的重要地位,也为原生多模态助手、具身智能等领域的发展奠定了基础。 北京商报讯(记者 陶凤 王天逸)1月28日,智源研究院主导的多模态大模型研究成果"通过预测下一个 词元进行多模态学习的多模态大模型"正式上线国际顶级学术期刊Nature,预计2月12日 ...