Workflow
蒸馏
icon
Search documents
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
机器之心· 2025-06-04 09:22
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita ——一个秉持「 极简即是极致复杂 」哲学的通用智能体,通过「 最小化预定义 」与「 最大化自我进化 」的设 计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 Alita 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智 能体,成为通用智能体新标杆。Alita 在 GAIA test 上也达到了 72.43% pass@1 的成绩。 极简架构设计,最大自我进化 「让智能体自主创造 MCP 工具而不靠人工预设」,是 Alita 的核心设计理念。 现有的主流智能体系统通常依赖大量人工预定义的工具和复杂的工作流,这种方法有三个关键缺陷: 覆盖范围有限 : 通用智能体面临的现实任务种类繁多,预先定义好所有可能需要的工具既不可行亦不现实。而且预定义工具很容易过拟合 GAI ...
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-05-31 17:15
1. 低成本下的高性能模型,是悖论还是可能? 机器之心PRO · 会员通讯 Week 22 用户感知的模型「性能下降」是 AI 公司的有意为之?为什么提供免费满血版 deepseek 推理服务的公司并不多?模型成本居 高不下,真的只能靠「精度换算力」吗?量化和剪枝之外,「业界龙凤」 们都有哪些低成本高性能通吃的 「花活」?... 2. 从性能到实战,怎样才算是靠谱的 Agent 产品? --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- ① 这种不满主要体现在逻辑减弱、错误响应增多、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添 加括号以及只记得最近的提示等问题上。 3、公众对大模型公司为省钱而牺牲模型性能的担忧在技术和市场层面不断得到佐证,并在 DeepSeek-R1 满血版的 争议中加剧。 ① 技术分析显示,满血版 DeepSeek-R1 需要多台高性能 GPU 服务器并行支持,仅一次性硬件投入成本就高达数百 万元。为了避免投入额外硬件,或让有限的硬件可以服务更多的用户,部分平台很可能采用了蒸馏版替代,导致模 型的推理能力和稳定性大幅下降。 为什么评估 Agen ...
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 04:00
「知其然,亦知其所以然。」 文章验证了三个核心发现: 1. 规模带来增益:随着模型变大、计算力增强,RM-R1 的推理链训练方法效果越好,性能几乎线性提升; 这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职 责;但现有模型往往只给出一个分数,却难以解释其依据。缺乏推理的奖励,就如「知其然而不知其所以然」,既难以建立信任,也难以指导更优的学习。 伊利诺伊大学香槟分校的研究团队提出了 RM-R1 框架,将奖励建模重新定义为推理任务,提出了推理奖励模型(Reasoning Reward Models, ReasRMs)。RM-R1 关注于如何通过整合推理能力来增强奖励模型,使其能够更准确地对模型输出进行评估和打分,从而更好地与人类偏好对齐。RM- R1 通过生成结构化的评估标准和推理过程,提升了奖励模型的可解释性和性能。 2. 简单套用旧 RL 策略行不通:想让模型「会推理」,得精准划分问题类型、并对推理过程进行定向蒸馏训练,才能带来真正泛化的提升; 3. 推理比直接输出答案更通用:相比传统的直接监督,RM-R1 的推理能力更稳 ...
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 01:07
白交 发自 凹非寺 量子位 | 公众号 QbitAI 上海交大、27岁、最年轻博导 ,留给张林峰的标签不多了 (Doge) 。 最新引发关注的,是他实实在在的一个论文成果—— 他们提出了一种新的数据集蒸馏方法,结果获得了 CVPR 2025满分 。 通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。与前SOTA相比,新方法的显存占用只有1/300,并且速 度提升了20倍。 不过对于这一结果,张林峰表示有点意外。但能肯定的是 「数据蒸馏」 这一范式会成为接下来模型压缩的趋势之一。 这其实代表着张林峰团队所做的一个方向: 通过数据的角度去加速模型 。 当前AI模型需要基于海量数据进行训练,这显著增加了大型模型的训练成本。我们研究如何更高效地利用数据,更科学地清洗和合成数据,并 利用合成数据进一步增强生成模型,从而实现数据高效的人工智能。 具体是什么意思? 实际上 模型压缩 这个领域其实并不新。作为机器学习中的一个分支,它旨在减少模型的复杂度、存储空间或计算资源需求,同时尽可能保持 其性能。像大家熟知的剪枝、量化、蒸馏都是模型压缩的传统方法。 随着大模型浪潮深入,「大力出奇迹」范式开始 ...
Meta CEO X 微软 CEO 对话解读:「蒸馏工厂」为何成为开源的魅力之源?
机器之心· 2025-05-23 15:30
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 微软在Nadella 上任后经历了哪些技术变革?微软现今在以什么理念转型?微软的产品在向哪里倾斜?... 01 AI 正在让文档、应用程序和网站之间的界限消失? 1、LlamaCon 2025 是 Meta 于 2025 年 4 月 29 日举办的一场专注于生成式 AI 的开发者大会。[2-1] 目录 01. AI 正在让文档、应用程序和网站之间的界限消失? Satya Nadella 如何描述文档、应用和网站间界限的模糊化?这种 AI 驱动的变化在如何改变生产力?... 02 . 为什么「蒸馏工厂」是开源最大的魅力之一? 蒸馏工厂是什么?Meta 和微软从何时开始布局蒸馏工厂?构建蒸馏工厂需要哪些基础设施?... Meta CEO Mark Zuckerberg 和微软 CEO Satya Nadella 在 LlamaCon 2025 闭幕会议上进行对话,就人工智能 (AI)的发展及其对技术平台、软件开发、生产力提升等方面的深远影响展开讨论。 03. 从操作系统到技术平台,Nadella 与 Zuckerberg 如何评价 A ...
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
Xin Lang Cai Jing· 2025-05-18 22:46
编译 | 核子可乐、Tina 最近,谷歌传奇工程师 Jeff Dean 在一次访谈中大胆预测:在一年之内,我们将拥有能够 24/7 全天候运 行、具备"初级工程师"能力的 AI 系统。 Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突破。 他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的诞生,自 2018 年起担任 Google AI 负责人,2023 年在 DeepMind 与 Google Brain 合并后 出任谷歌首席科学家。从参与 BERT 论文、主导 TPU 研发,到推动谷歌基础 AI 架构的演进,Dean 几 乎见证并亲历了谷歌每一个关键的 AI 发展节点。 作为技术界最具影响力的人物之一,Jeff Dean 的这番言论一经发布,迅速在业内引发热议。虽然此前 包括 Sam Altman 在内的不少业内人士也曾表达过类似观点,但 Jeff Dean 的话语分量显然不同。正如有 网友所说:相比那个总在"兜售"某种概念的 Sam Altman, ...
拉 DeepSeek 和通义“组队”斗 OpenAI?小扎首届 AI 大会变“大型商战现场”,和微软 CEO 疯狂互曝!
AI前线· 2025-05-11 05:23
整理 | 华卫、核子可乐 4 月 30 日凌晨,Meta 举行了其有史以来的首届 AI 开发者大会 LlamaCon。现场,该公司宣布推出一 款面向消费者的独立 Meta AI 聊天机器人应用程序,这款应用将与 ChatGPT 展开竞争,同时还发布 了一个面向开发者的 API,用于在云端访问 Llama 模型。 这两项产品发布都旨在扩大 Meta 开源 Llama AI 模型的应用范围,但这一目标或许只是次要的, Meta 的真正动机是:击败 OpenAI。从大致方向来看,Meta 的 AI 野心正推动形成一个蓬勃发展的开 源 AI 生态系统,而这将对像 OpenAI 这样将其模型封闭在服务背后的"封闭式" AI 供应商构成挑战。 首先,Meta AI 应用几乎像是对 OpenAI 传闻中要推出的社交网络的先发制人之举。作为一款智能助 手,Meta AI 基于 Llama 模型构建,集成了图像生成和编辑功能,可以了解用户的偏好、记住上下 文,能根据用户在应用程序上的活动提供个性化回复。到目前为止,这些个性化回复功能将在美国和 加拿大地区提供。用户还可以向 Meta 提供更多关于自己的信息,以便在未来与 AI ...
小鹏关于自己VLA路线的一些QA
理想TOP2· 2025-05-09 14:30
原作者:小鹏自动驾驶产品高级总监微博用户XP-Candice婷婷 原文链接: https://weibo.com/7926776135/PqSjHhgEN 1、为什么云端大模型蒸馏,优于直接训练一个车端的小模型? 小鹏的技术路线选择的,是超大型云端模型蒸馏,而不是仅仅云端小型训练后直接部署到车端。 我们 正在云上训练72B参数的超大规模VLA模型,未来会通过蒸馏方法,生产出小尺寸的车端模型。蒸馏最 大的好处,是让车端小模型尽可能承袭云端大模型的能力,把72B超级大脑的智能"推云入端"。 这比直 接训练一个车端小模型更难,但上限也更高。 原因1:更强的规模法则效应。 模型参数的利用率是有限的,通过云端更大的模型,有更多的数据,能学到更多的东西,涌现效应更 强。再蒸馏到车端的小模型上,可以让小模型有更强的表现。 原因2:解决"模态不统一"的困境。 自动驾驶本身就是多解的(也就是所谓的多模态的),会遇到"模态不统一"的困境。模态不统一,指的 是,面对同一个驾驶场景,驾驶者的表现会不同,且每一条路径选择都是对的,面对输出的多模态,如 果让模型直接通过模仿学习去学这个,就会造成模态的不统一,甚至会出现模态坍塌,而且这个 ...