自回归模型

Search documents
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 08:01
岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。研究方向主要是:具身智能 VLA 模型,世界模型。 阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图 片、动作理解和生成的全自回归模型。 论文标题:WorldVLA: Towards Autoregressive Action World Model 论文地址:https://arxiv.org/pdf/2506.21539 代码地址:https://github.com/alibaba-damo-academy/WorldVLA 研究简介 近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型的发展成为机器人动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态大语言模 型(Multimodal Large Language Models, MLLMs)基础上,添加一个动作输出头或专门的动作模块,以实现对动作的生成。MLLMs 在感知和决 ...
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 01:59
机器之心报道 编辑:Panda 上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中, Gemini Diffusion 绝对算是最让 人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模 型! Google DeepMind 表示,他们正在使用「扩散」技术来探索新的语言模型方向,从而为用户提供更强大的控制力、创造力和文本生成速度。 从演示效果看,Gemini Diffusion 也确实快 ——「生成速度是我们迄今为止最快模型的五倍,同时还具有相当的编程性能。」 那么,扩散模型为什么会这么快呢?这与其工作原理有关。简单来说,不像自回归语言模型那样直接预测下个文本 token,扩散语言模型(dLLM)是通过逐步细 化噪声的方式来学习生成输出。这意味着它们不仅可以快速迭代,还能在生成过程中进行纠错。这些特性有助于它们更好地应对编辑等任务,包括在数学和代码 环境中。 用户输入「 Explain what artificial intell ...
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 03:30
本文作者主要来自 Meta 和多所美国高校。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转 入 UIUC),主要研究方向是多模态学习、生成模型和视频理解,并在 CVPR、ECCV、ACL 等会议发表相关论文。本文工作是赖柏霖在 Meta 的 GenAI 部门实 习时完成。 例如:我们需要模型将一辆普通的汽车变换为兰博基尼,如果训练集中没有包含类似的数据,模型很难仅通过「兰博基尼」四个字推断出其对应的形状、纹理等 视觉特征,同时兰博基尼的特征也很难通过语言来详尽地描述。如今网络的快速普及导致大量新的概念不断涌现,这些没有被包含在训练数据中的新概念对于目 前图像编辑模型的泛化能力是个很大的挑战。 为了解决这一难题,一个直接有效的方法是在文字指令的基础上额外提供一组或多组变换前后的图片作为样例,让模型从中学习用户想要的图像变换,即 few-shot 图像编辑。目前已有的模型都是基于扩散模型开发,然而从图片样例中学习潜在的图像变换需要模型有很强的推理能力,扩散模型生成能力很强但推理能力依然 较弱。 相反地,自回归模型(autoregressi ...
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
量子位· 2025-05-27 03:53
图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比 dLLM-Cache具有几个重要的亮点: 1. 训练无关,即插即用。 dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量 的前提下,带来最高9.1倍的推理速度提升 。 2. 通用于主流dLLM架构 ,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。 EPIC Lab团队 投稿 量子位 | 公众号 QbitAI 首个用于加速 扩散式大语言模型 (diffusion-based Large Language Models, 简称 dLLMs)推理过程的 免训练 方法。 上海交通大学EPIC Lab团队提出了一种 无需训练、即插即用 的高效推理缓存机制: dLLM-Cache 。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低, 并保持了原有的生成质量。 3. 在推理过程中, 首次识别出 了prompt部分的Transformer中间层特征(Key、 ...
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 10:39
谷歌又放新大招了,将图像生成常用的"扩散技术"引入语言模型, 12秒能生成1万tokens 。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 什么概念?不仅比Gemini 2.0 Flash-Lite更快。 甚至需要不得不在演示过程中 放慢 视频的速度,才能看清生成过程。 这是Google DeepMind推出 Gemini Diffusion :不同于以往大多数语言模型"从左到右"预测文本的生成方式,而是 通过 逐步优化噪声来学习生成输出 。 传统的自回归模型是根据已生成的词序列 逐步预测下一个词 ,每次只能生成一个词或一个token,这种顺序过程很 慢,并且会限制输出的质量和一致性。 而扩散模型的特点则是通过 逐步细化噪声学习生成 ,这种特点会大大提高生成速度,并且减少训练的不确定性。 与以往大多数基于自回归的语言模型不同,Gemini Diffusion在 语言模型中引入了"扩散"技术 ,它不是直接预测文 本,而是通过 逐步细化噪声来学习生成输出 。 这种技术能够让模型在生成过程中 快速迭代 ,并在生成过程中进行 错误纠正 。 Gemini Diffusion就是利用了扩散模型这一优势,将文本生 ...
阶跃星辰开源图像编辑模型Step1X-Edit;阿里巴巴AI旗舰应用夸克发布全新“AI相机”丨AIGC日报
创业邦· 2025-04-27 23:48
扫码订阅 AIGC 产业日报, 3.【Meta Token-Shuffle登场:自回归模型突破瓶颈,可AI生成 2048×2048 分辨率图像】报道称Meta AI创 新推出Token-Shuffle,目标解决自回归(Autoregressive,AR)模型在生成高分辨率图像方面的扩展难 题。在语言生成方面,自回归模型大放异彩,近年来也被广泛探索用于图像合成,然而在面对高分辨率 图像时,AR模型遭遇瓶颈。不同于文本生成仅需少量token,图像合成中高分辨率图片往往需要数千个 token,计算成本随之暴增。这让许多基于 AR 的多模态模型只能处理低中分辨率图像,限制了其在精细 图像生成中的应用。尽管扩散模型(Diffusion Models)在高分辨率上表现强劲,但其复杂的采样过程和 较慢的推理速度也存在局限。(搜狐) 4.【Adobe发布Firefly Image Model 4模型:AI生图再升级】Adobe发布博文,推出Firefly Image Model 4和 Firefly Image Model 4 Ultra两款文本生成图像AI模型,并预告针对Photoshop和Illustrator的Crea ...
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 07:46
一个男友回头表情包,可以秒变 语义分割 图。 也可以秒变 深度图 。 这下不光上一代AI画图工具和设计师,计算机视觉研究员也哭晕在厕所了。 这是NASA前工程师测试特斯拉自动驾驶系统的伪装"隐形墙",在GPT-4o面前也无所遁形。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一夜之间,CV被大模型"解决"了 (狗头) 。 万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。 这下OpenAI应用研究主管 Boris Power 已经把脑筋动到了自动驾驶,称只需要训练最强大的基础模型,然后微调。 3D渲染领域也惨遭毒手,GPT-4o可以生成 PBR材质 (基于物理渲染的材质),纹理、法线贴图等直接来一套。 对于这些能力,也有人认为没什么大不了的,Stable Diffusion + ControlNet就可以 全部实现。 但不可否认,靠扩大基础模型规模就能做到,也是令人意想不到的。 GPT-4o图像生成是自回归模型 这波GPT-4o原生图像生成的技术细节,OpenAI是一点也没有公布(粗节也没有公布)。 但还是有人从System Card中发现了蛛丝马迹。 与DALL·E是一个扩散模 ...