模型蒸馏

Search documents
我在618主场,和3位顶尖技术博士聊了聊
量子位· 2025-06-18 07:49
How time flies!又到了一年一度的618。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 今年你下单了吗?抢到心仪的商品了吗?快递收得顺利不?血拼了大半个月的我有一个最大的体会,就是今年的618还是那么热闹,但有些东 西变了。 你可能也注意到这些变化—— 商 品推荐越来越命中心趴,物流越来越快,甚至智能外呼、客服机器人,也越来越像个真人了。 技术不是"内卷""压榨"或"花样叙事"的工具,而是切实服务着美好生活。 体验更好,出错更少,意味着背后的技术进步得更多,也越能说明有人在背后顶住了压力。 618是京东的生日,也是京东首次以线上促销形式庆祝这一日期,推出了618年中促销活动,通过限时秒杀等简单玩法吸引消费者。 一眨眼,我们已经在这个特别的时间点买买买了二十多年。 趁着这个节点,今年,我们 找来了三位分别来自京东零售、物流、科技业务的技术人,聊了聊他们在幕后做的事 。 长林丨零售:不是造一个新模型,而是让模型用得起、落得下 大家在京东选购商品时可能会留意到,不同商家架上的同类商品会自动被归在一起,方便大家快速对比选购性价比高的商品,商家也会被激励 提供更具竞争力的价格和服务。 这背后其实是 ...
小鹏关于自己VLA路线的一些QA
理想TOP2· 2025-05-09 14:30
原作者:小鹏自动驾驶产品高级总监微博用户XP-Candice婷婷 原文链接: https://weibo.com/7926776135/PqSjHhgEN 1、为什么云端大模型蒸馏,优于直接训练一个车端的小模型? 小鹏的技术路线选择的,是超大型云端模型蒸馏,而不是仅仅云端小型训练后直接部署到车端。 我们 正在云上训练72B参数的超大规模VLA模型,未来会通过蒸馏方法,生产出小尺寸的车端模型。蒸馏最 大的好处,是让车端小模型尽可能承袭云端大模型的能力,把72B超级大脑的智能"推云入端"。 这比直 接训练一个车端小模型更难,但上限也更高。 原因1:更强的规模法则效应。 模型参数的利用率是有限的,通过云端更大的模型,有更多的数据,能学到更多的东西,涌现效应更 强。再蒸馏到车端的小模型上,可以让小模型有更强的表现。 原因2:解决"模态不统一"的困境。 自动驾驶本身就是多解的(也就是所谓的多模态的),会遇到"模态不统一"的困境。模态不统一,指的 是,面对同一个驾驶场景,驾驶者的表现会不同,且每一条路径选择都是对的,面对输出的多模态,如 果让模型直接通过模仿学习去学这个,就会造成模态的不统一,甚至会出现模态坍塌,而且这个 ...
Meta、微软掌门人最新对谈:AI浪潮带来软件开发革命
Hu Xiu· 2025-05-07 07:45
4月30日,Meta CEO Mark Zuckerberg 和微软CEO Satya Nadella在LlamaCon 2025 闭幕会议上进行了一场 精彩对话。 本次对话从历史视角切入,将 AI 定位为继客户端服务器、互联网与云之后的又一次重大技术平台革 命,并剖析了其驱动下的效率飞跃与成本优化趋势。对话深入讨论了微软在开源与闭源模型间的战略平 衡、Azure 云平台在赋能开发者构建 AI 应用中的核心作用,以及 AI Agent 在重塑软件开发和知识工作 流程方面的潜力。此外,双方还探讨了 AI 驱动下的未来工具形态、模型蒸馏技术的机遇与挑战等话 题。 以下是本次对话实录,经数字开物团队编译整理。 一、AI浪潮带来新一轮技术平台革命 Mark Zuckerberg:非常荣幸能邀请到 Satya。你引领 Microsoft 这家伟大的科技公司实现了惊人转型, 推动公司向 AI、云等重要领域发展。对于我们所做的开源工作,你一直是我们的朋友和盟友。我非常 珍视我们长期的伙伴关系,也感谢你就 Llama 生态系统及基础设施建设给予的建议。 Satya Nadella:谢谢你,Mark。我的荣幸。我还记得大约 2 ...