Workflow
蒸馏
icon
Search documents
Meta、微软掌门人最新对谈:AI浪潮带来软件开发革命
Hu Xiu· 2025-05-07 07:45
Group 1 - The dialogue between Meta CEO Mark Zuckerberg and Microsoft CEO Satya Nadella highlights AI as a significant technological revolution, comparable to previous shifts like client-server architecture and the internet [1][3][6] - Nadella emphasizes that the current AI wave represents a major transformation requiring a reevaluation of the entire technology stack, particularly in cloud infrastructure [6][7] - The discussion points to the exponential improvement in AI performance, driven by multiple overlapping S-curves, leading to a tenfold increase in efficiency every 6 to 12 months [8][9] Group 2 - The conversation addresses the coexistence of open-source and closed-source AI models, with both being necessary to meet diverse customer needs [10][11][12] - Nadella discusses Microsoft's strategy of providing a flexible combination of open-source and closed-source solutions, enhancing interoperability for clients [11][12] Group 3 - Azure's role in empowering developers is highlighted, focusing on building a world-class infrastructure that integrates computing, storage, and AI accelerators [13][14] - The importance of developer tools, such as GitHub Copilot, is emphasized as a key factor in accelerating application development [14] Group 4 - AI Agents are reshaping software development and knowledge workflows, with tools like GitHub Copilot enhancing productivity through integration with existing workflows [15][16][17] - The conversation notes that AI-generated code currently constitutes about 20% to 30% of the code in some Microsoft projects, indicating a growing reliance on AI in development [18][19] Group 5 - The dialogue explores the potential of AI to blur the boundaries between applications, enabling a seamless transition from intent to dynamic outcomes [22][23] - Nadella stresses that AI is a crucial new factor of production, but realizing its economic impact will require systemic changes and time [24][25] Group 6 - The concept of a "distillation factory" is introduced, focusing on the potential to distill large models into smaller, more efficient versions, making AI more accessible [26][27][29] - The discussion highlights the need for tools and infrastructure to support the distillation process, allowing developers to leverage the advantages of various models [29][30]
大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升
机器之心· 2025-05-04 04:57
本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建:蒸馏与强化学习方法」、「无线通信故障定位与根因分析推 理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所。 近年来,「思维链(Chain of Thought,CoT)」成为大模型推理的显学,但要让小模型也拥有长链推理能力却非易事。 中兴通讯无线研究院「大模型深潜团队」从 「数据静态经验流」 的角度切入,首创 「LLM 自适应题目难度蒸馏」 方法,一举将高质量 CoT 语料的生产效率与效 果同步拉满。 论文标题:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading 论文链接:https://arxiv.org/pdf/2504.11919 这促使业界对参数量低于 70 亿的小型模型开展持续研究,尤其聚焦在复杂数学解题和代码生成等长链推理场景。值得注意的是,借助 DeepSeek- ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...
两位大模型从业者群友如何评价小米MiMo大模型?
理想TOP2· 2025-04-30 13:04
群友AB均为大模型从业者,其中群友B为重度米粉+小米股票持有者。 群友A: 小米这个大模型看起来是专门刷数学和代码的榜,其他能力会退化,和真实用户需求匹配度不高。 | Benchmark | # Shots | Llama-3.1 | Gemma-2 | Qwen2.5 | MiMo- | | --- | --- | --- | --- | --- | --- | | | | 8B Base | 9B Base | 7B Base | 7B Base | | General | | | | | | | BBH (EM) | 3-shot | 64.2 | 69.4 | 70.4 | 75.2 | | GPQA-Diamond (EM) | 5-shot | 33.3 | 24.2 | 35.4 | 25.8 | | SuperGPQA (EM) | 5-shot | 19.9* | 22.6* | 24.6* | 25.1 | | DROP (F1) | 3-shot | 59.5 | 67.9* | 61.5* | 69.2 | | MMLU (EM) | 5-shot | 65.3 | 71.2 | 74 ...
新势力 AI 大模型全对比:小鹏野心、理想务实、蔚来追赶
21世纪经济报道见习记者 何煦阳 报道 "AI 一天,人间一年。" 一位 AI 公司联合创始人曾这样形容大模型的发展速度。 2023年3月,OpenAI发布GPT4,不久后,Sora、o1新模型诞生,AI大爆发,这些重要事件启发了诸多新 势力车企。小鹏自动驾驶副总裁李力耘告诉《21汽车·一见Auto》,2023年年初,小鹏开始探索如何将 端到端运用到自动驾驶领域,去年下半年,小鹏又开始向云端大模型迈进。 近日,在AI大模型技术闭门分享会上,李力耘说,小鹏正在研发 720 亿参数的超大规模自动驾驶大模 型,即 "小鹏世界基座模型"。 所谓小鹏世界基座模型,是一个以LLM(大语言模型)为骨干网络,使用海量多模态驾驶数据训练的 多模态大模型,具备视觉理解、链式推理(Cot)和动作生成能力。小鹏希望世界基座大模型能够真正 理解、认知,甚至改造物理世界。 物理AI也是理想的自动驾驶方案瞄准的最新方向。今年3月,理想自动驾驶技术研发负责人贾鹏在英伟 达 2025 春季 GTC 大会上介绍,理想在车端部署了参数为 22 亿的 MindVLA 大模型(Vision-Language- Action Model,视觉-语言-动 ...
速递|Pruna AI开源模型压缩"工具箱",已完成种子轮融资650万美元
Z Potentials· 2025-03-21 03:22
图片来源: Pruna AI 欧洲初创公司 Pruna AI 一直在研究 AI 模型的压缩算法,该公司的优化框架将于周四开源。 Pruna AI 在几个月前完成了 650 万美元的种子轮融资。参与此次初创公司投资的包括 EQT Ventures 、 Daphni 、 Motier Ventures 以及 Kima Ventures 。 Pruna AI 一直在构建一个框架,该框架将多种效率方法应用于给定的 AI 模型,如缓存、蒸馏等。 "我们还标准化了压缩模型的保存和加载,应用这些压缩 方法的组合,并在压缩后评估你的压缩模型," Pruna AI 联合创始人兼 CTO John Rachwan 告诉 TechCrunch 。 Pruna AI 的框架能够评估模型压缩后,是否存在显著的质量损失,以及所获得的性能提升。 "如果要用一个比喻,我们类似于 Hugging Face 如何标准化 transformers 和 diffusers ——如何调用它们,如何保存、加载它们等。我们正在做同样的事 情,但针对的是效率方法,"他补充道。 大型 AI 实验室已经在使用各种压缩方法。 例如, OpenAI 一直依赖蒸馏技 ...
DeepSeek 刷新全球 AI 格局;50 美元模型蒸馏术;美国公司们宣布 8000 亿美元算力投资丨AI 月报
晚点LatePost· 2025-02-10 09:50
DeepSeek 在 1 月 20 日上线 R1 模型后,凭借高性能(比肩 OpenAI o1)、低使用成本(API 价格是 o1 的 1/30)、开源模型权重 等,迅速接管 OpenAI 等公司主导的大模型叙事。 DeepSeek 怎么刷新全球大模型格局 李飞飞在内的团队如何低成本 "蒸馏" 出特定领域追赶 o1 的模型 到去年底,OpenAI 年化收入超 60 亿美元 OpenAI 的星门计划:投 5000 亿美元建算力 26 家获得超过 5000 万美元融资的 AI 公司,中国有 2 家 大模型公司的爬虫遭 "下毒" 抵抗 这之前,因为 OpenAI 展示能力超强的 o3 模型,不少 OpenAI 和硅谷的研究者正在讨论 AGI (通用人工智能)即将到来。R1 发 布后,行业焦点变成 DeepSeek,一些媒体用 "DeepShock" 形容它带来的冲击。 市值大跌的英伟达、台积电,现在已经开始反弹 2025 年 1 月的全球 AI 大事记。 文丨贺乾明 编辑丨程曼祺 2025 年 1 月的 AI 月报,你会看到: 以下是我们第 3 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要进展。 格局丨D ...
假的
猫笔刀· 2025-01-29 14:18
韩国那边也有很多闭麦对嘴型的演出,但通常是女团或者男团的唱跳演出,成员有剧烈的舞蹈动作和队形变换,这个时候实力不稳的成员唱出来的歌声犹 如杀猪,确实开不了麦。 但韩国也有一个潜规则,就是纯歌手(没有舞蹈动作,就是站着唱歌)基本都是现场live,因为你所有的表演内容就是唱歌,如果歌声还是假的你站那里 就没意义了。 春晚歌曲节目的预制菜含量高这是众所周知的,曾经有那么几年也尝试大力推行现场live,结果事故频发,比如王菲2012年和陈奕迅的《因为爱情》是真 唱,你们去搜,节目效果一言难尽。王菲的嗓子早就不太好了,每次唱高音都让人提心吊胆,昨晚那首突然稳如老狗当然是预制菜了。 昨晚我说某菲的节目是预制菜,底下有一些可能是粉丝给我一顿数落,我当然不是乱讲了,哪些是预制菜,哪些是现炒的,这对我来说不难分辨。 我有个二十多年的爱好,就是看kpop的打歌舞台,这么多年下来看了得有几千个了,哪些是闭麦演出,哪些是半开麦,哪些是全开麦,听多了就知道。 这次的人物塑造有亮点,我出人意料的喜欢上了申公豹这个角色,虽然只是几笔简单着墨,但一下子让这个惯常在封神故事里打酱油的配角立体丰满了起 来,影片结尾埋下了他的故事线,所以肯定会继 ...