Workflow
机器之心
icon
Search documents
从高考到实战,豆包大模型交卷了
机器之心· 2025-06-12 06:08
机器之心报道 编辑:Panda 高考余热尚在,依然还是有不少博主和媒体在测试各家 AI 模型解答最新高考题的能力。而现在,一个正被火热评测的主流模型迎来了重磅升级! 在 AI 基础设施方面,火山引擎围绕 AI 应用的实际需求,打造了三个套件: AgentKit 、 TrainingKit 和 ServingKit 。顾名思义,这三个套件的作用分别是智能 体、模型训练和模型 serving。 整场 Force 大会下来,我们最大的感受是火山引擎对「 AI 云原生 」概念的反复强调。简单来说,「AI 云原生」是指将云原生理念应用到 AI 领域,专注于 AI 工 作负载的云端构建和部署;其核心理念是以 AI 负载为中心,重新优化计算、存储与网络架构,让 GPU 可直接访问存储和数据库,降低 IO 延迟,并提供高速互联 和端到端安全保护。事实上,正如我们以前多次报道的那样,「AI 云原生」已经成为火山引擎「下一个十年」所遵循的云计算新范式。 事情发生在昨天、北京国家会议中心、火山引擎原动力大会 Forc e 202 5 现场。 火山引擎一口气发布了豆包大模型 1.6、Seedance 1.0 Pro、AI 云原生平台 ...
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
机器之心· 2025-06-12 03:23
本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。本项目为 作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透 明的纱幔帐篷... 传统工作流程中,这可能需要数周时间:先手工建模每个 3D 资产,再逐个调整位置和材质,最后反复测试光照效果…… 总之就是一个 字,难。 核心贡献:无需训练的智能 3D 场景工厂 ArtiScene 的核心创新在于构建了一个完全 无需额外训练 的自动化流水线,将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步: 1. 2D 图像作为 "设计蓝图" 系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直 接生成 3D,这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。 这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 ...
SIGGRAPH 2025奖项出炉:上科大、厦大入选最佳论文
机器之心· 2025-06-12 03:23
机器之心报道 编辑:泽南、陈陈 让我们祝贺获奖者。 本周三,全球图形学领域的顶级会议 SIGGRAPH 公开了今年的论文奖项。 SIGGRAPH 自 1974 年起由美国计算机协会计算机图形专业组(ACM SIGGRAPH)每年组织举办。该会议在图形图像技术,计算机软硬件等方面都有着相当高的 影响力。如今,大会涵盖的技术领域包含动画、模拟、成像、几何、建模、渲染、人机交互、触觉、制造、机器人、可视化、音频、光学、编程语言、沉浸式体 验、生成式人工智能和视觉计算机器学习等。 今年的 SIGGRAPH 大会将在 8 月 10-14 日在加拿大温哥华举行,根据此前信息,共有 306 篇技术论文被接收。 最佳论文奖 今年大会共评选出 5 篇最佳论文,国内机构收获颇丰,包括上海科技大学、华中科技大学、厦门大学、清华大学在内的机构获奖。以下是获奖及提名论文的简要 介绍。 论文 1:Shape Space Spectra 这篇获奖论文作者全部来自国内机构。此外,2024年该团队也曾获得两项SIGGRAPH最佳论文提名。 论文摘要:从单幅 RGB 图像恢复高质量的 3D 场景在计算机图形学中是一项极具挑战性的任务。当前的方法 ...
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
机器之心· 2025-06-12 00:53
本文第一作者杜恒辉为中国人民大学二年级硕士生,主要研究方向为多模态大模型视听场景理解与推理,长视频理解等,师从胡迪副教授。作者来自于中国人民 大学,清华大学和北京腾讯 PCG AI 技术中心。 我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的 任务,它们分别要求模型具备不同层面的能力。 过去大量的工作主要聚焦于完成单一任务,相比之下,我们人类对周围复杂的的世界具有一个通用的感知理解能力。因此,如何设计一个像人类一样对视听场景 具有通用理解能力的模型是未来通往 AGI 道路上一个极其重要的问题。 当前主流的学习范式是通过构建大规模的多任务指令微调数据集并在此基础上直接做指令 微调 。然而,这种学习范式对于多任务学习而言是最优的吗? 最近中国人民大学高瓴人工智能学院 GeWu-Lab 实验室,清华大学和北京腾讯 PCG AI 技术中心合作发表的 CVPR 2025 论文指出, 当前这种主流的学习范式忽视 了多模态数据的异质性和任务间的复杂关系,简单地将所有任务联合训练可能会造成任务间的相互干扰。 为了有效实现任务间的显示互 ...
刚刚,LeCun亲自出镜,Meta推出新世界模型!
机器之心· 2025-06-12 00:53
机器之心报道 机器之心编辑部 最近,Meta 大动作不断。 前些天有外媒曝出马克・扎克伯格正在组建一个名为「超级智能团队」的专家团队,以实现通用人工智能。随后开出 9 位数的薪酬为该团队吸纳人才。 就在刚刚,Meta 又有新的动作,推出 基于视频训练的世界模型 V-JEPA 2(全称 Video Joint Embedding Predictive Architecture 2) 。其能够实现最先进的环境理 解与预测能力,并在新环境中完成零样本规划与机器人控制。 Meta 表示,他们在追求高级机器智能(AMI)的目标过程中,关键在于开发出能像人类一样认知世界、规划陌生任务执行方案,并高效适应不断变化环境的 AI 系 统。 这次,Meta 首席 AI 科学家 Yann LeCun 亲自出镜,介绍世界模型与其他 AI 模型的不同。 他说,世界模型是一种现实的抽象数字孪生,AI 可以参考它来理解世界并预测其行为的后果。与理解语言不同,世界模型使机器能够理解物理世界,并能够规划 行动路线以完成任务,而无需进行数百万次的试验,因为世界模型提供了对世界运行方式的基本理解。能够使用世界模型进行推理和规划的 AI 将产生广泛 ...
10%训练数据超越100%表现,机器人学习领域迎来重要突破
机器之心· 2025-06-11 03:54
第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制 优化。 第二作者徐晓豪是美国密歇根大学机器人学院博士生,研究涵盖3D 感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建。 共同第一作者 Quantao Yang 是瑞典皇家理工学院博士后,师从 Olov Andersson 教授,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中 的感知与导航能力。 密歇根大学和瑞典皇家理工学院的研究团队提出了 ViSA-Flow 框架,这是一种革命性的机器人技能学习方法,能够从大规模人类视频中提取语义动作流,显著提 升机器人在数据稀缺情况下的学习效率。该方法在 CALVIN 基准测试中表现卓越,仅使用 10% 的训练数据就超越了使用 100% 数据的现有最佳方法。 研究背景与挑战 机器人模仿学习在使机器人获得复杂操作技能方面取得了显著成功,但传统方法面临一个根本性限制:需要大量精心策划的机器人数据集,收集成本极其昂贵。 这已成为开发能够执行多样化现实世界任务的机器人的关键瓶颈。 相比之下,人类展现出通 ...
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 03:54
| 机器之心报道 | | --- | 编辑:张倩、陈陈 谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢? 在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是 蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身。」 从 2016 年至今,LeCun 对强化学习一直不看好。然而,不可否认的是,强化学习在提升 AI 模型能力方面正变得越来越重要。而且,来自微软的一项新研究显 示,它不仅在后训练阶段发挥着关键作用,甚至在预训练阶段也展现出巨大的潜力。 在这篇题为「Reinforcement Pre-Training」的论文中,作者提出了一种名为「强化预训练(RPT)」的新范式。在这种范式中,下一个 token 预测任务可以被重新定 义为一个通过强化学习训练的推理任务。在这一任务中,模型会因正确预测给定上下文中的下一个 token 而获得可验证的奖励。 这就好比在制作蛋糕的过程中,直接将樱桃融入到蛋糕的主体结构中。 作者指出,RPT 范式的好处在于 ...
Mistral的首个强推理模型:拥抱开源,推理速度快10倍
机器之心· 2025-06-11 03:54
机器之心报道 编辑:泽南 强推理终于要卷速度了。 大模型强推理赛道,又迎来一位重量级玩家。 本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。它能够进行不断反思,并解 决更复杂的任务。 此次发布包含两个版本:面向企业客户的大型专有模型 Magistral Medium,以及一个 24B 参数的开源版本 Magistral Small。其中开源版本使用 Apache 2.0 许可,可以自由使用、商用化;Magistral Medium 则可通过 Mistral 的 Le Chat 界面和 La Plateforme API 访问。 在基准测试中,新模型取得了不错的成绩。这里主要是 Magistral 与其前身 Mistral-Medium 3 和 DeepSeek 系列的对比。Magistral Medium 在 AIME2024 上的得分为 73.6%,其中多数投票为 64%,得分为 90%。Magistral Small 的得分分别为 70.7% 和 83.3%。 新模型在一些其他高要求测试中也表现出色,包括研究生水平的 ...
刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
机器之心· 2025-06-11 00:24
机器之心报道 编辑:Panda 今天凌晨一点,OpenAI 宣布:OpenAI o3-pro today. 前沿模型的轮流更新这一次轮到 OpenAI 了。 https://x.com/piet_dev/status/1932530536225935374 从即日起,所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。Team 用户也可在模型选择器选择使用它。而企业用户和教育用户还需等待下一 周。 有趣的是,这一次发布 o3-pro,OpenAI 并未采用以往大家熟悉的发布形式(视频直播 + 博客文章),而只是简单地发布了几条介绍推文。 尽管如此,OpenAI CEO Sam Altman 还是表示: o3-pro「真是太聪明了!我第一次看到它相对于 o3 的胜率时,简直不敢相信。」他甚至还久违地发了一篇题为「 温和的奇点(The Gentle Singularity) 」的博客文章 —— 将在后文呈现。 下面我们先来看看 o3-pro 的基准测试表现,然后分享一下 Pro 用户们早期测试得到的案例。 o3-pro 的基准成绩 首先来看专家评估结果,下图展示了在多项任务上,o3 ...
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
机器之心· 2025-06-11 00:24
在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的 重点,但 Transformer 在推理时灵活建模长距离上下文的能力,使得许多线性复杂度的替代方案(如 RNN、Linear Attention、SSM 等)难以真正取代它的地位。 尤其是在大语言模型广泛采用 decoder-only 架构之后,自注意力机制的重要性进一步凸显。然而,这种机制也带来新的挑战:推理过程中每一步都需要访问 Key- Value(KV)缓存,该缓存的大小随着生成序列长度线性增长,逐渐成为影响推理效率的关键瓶颈。随着模型参数维度不断扩大,KV 缓存所需的显存和带宽开销 显著上升,限制了模型的推理长度与可支持的 batch size。 值得一提的是,近期由 DeepSeek 团队提出的 MLA 机制,通过在隐空间维度对 KV 缓存进行压缩,显著提升了推理效率,推动了大模型在低资源场景下的高效部 署。但随着生成序列的持续增长,时间维度的冗余信息也逐渐暴露,压缩其所带来的潜力亟待挖掘。然而,如何在保持性能的前提下压缩时间维度,一直受到增 ...