蒸馏 - filings, earnings calls, financial reports, news

蒸馏

Search documents

美国至5月2日当周EIA蒸馏燃油产量引伸需求数据 492.51万桶/日，前值457.41万桶/日。

news flash· 2025-05-07 14:38

美国至5月2日当周EIA蒸馏燃油产量引伸需求数据 492.51万桶/日，前值457.41万桶/日。 ...

EIA蒸馏燃油产量引伸需求数据

Meta、微软掌门人最新对谈：AI浪潮带来软件开发革命

Hu Xiu· 2025-05-07 07:45

Group 1 - The dialogue between Meta CEO Mark Zuckerberg and Microsoft CEO Satya Nadella highlights AI as a significant technological revolution, comparable to previous shifts like client-server architecture and the internet [1][3][6] - Nadella emphasizes that the current AI wave represents a major transformation requiring a reevaluation of the entire technology stack, particularly in cloud infrastructure [6][7] - The discussion points to the exponential improvement in AI performance, driven by multiple overlapping S-curves, leading to a tenfold increase in efficiency every 6 to 12 months [8][9] Group 2 - The conversation addresses the coexistence of open-source and closed-source AI models, with both being necessary to meet diverse customer needs [10][11][12] - Nadella discusses Microsoft's strategy of providing a flexible combination of open-source and closed-source solutions, enhancing interoperability for clients [11][12] Group 3 - Azure's role in empowering developers is highlighted, focusing on building a world-class infrastructure that integrates computing, storage, and AI accelerators [13][14] - The importance of developer tools, such as GitHub Copilot, is emphasized as a key factor in accelerating application development [14] Group 4 - AI Agents are reshaping software development and knowledge workflows, with tools like GitHub Copilot enhancing productivity through integration with existing workflows [15][16][17] - The conversation notes that AI-generated code currently constitutes about 20% to 30% of the code in some Microsoft projects, indicating a growing reliance on AI in development [18][19] Group 5 - The dialogue explores the potential of AI to blur the boundaries between applications, enabling a seamless transition from intent to dynamic outcomes [22][23] - Nadella stresses that AI is a crucial new factor of production, but realizing its economic impact will require systemic changes and time [24][25] Group 6 - The concept of a "distillation factory" is introduced, focusing on the potential to distill large models into smaller, more efficient versions, making AI more accessible [26][27][29] - The discussion highlights the need for tools and infrastructure to support the distillation process, allowing developers to leverage the advantages of various models [29][30]

大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升

机器之心· 2025-05-04 04:57

本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建：蒸馏与强化学习方法」、「无线通信故障定位与根因分析推理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所。近年来，「思维链（Chain of Thought，CoT）」成为大模型推理的显学，但要让小模型也拥有长链推理能力却非易事。中兴通讯无线研究院「大模型深潜团队」从「数据静态经验流」的角度切入，首创「LLM 自适应题目难度蒸馏」方法，一举将高质量 CoT 语料的生产效率与效果同步拉满。论文标题：Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading 论文链接：https://arxiv.org/pdf/2504.11919 这促使业界对参数量低于 70 亿的小型模型开展持续研究，尤其聚焦在复杂数学解题和代码生成等长链推理场景。值得注意的是，借助 DeepSeek- ...

机器之心· 2025-05-02 04:39

选自 Ahead of AI 作者：Sebastian Raschka 机器之心编译推理模型发展正盛，著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前，他已经出版了多本 AI 领域的著名书籍，包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。近日，他在自己的博客上放出了这本书的第一章，为 LLM 领域的推理进行了入门级的介绍，同时还概述了推断时间扩展和强化学习等技术方法。机器之心编译了这本书的第一章，以飨读者。原文地址：https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch （注：为了行文清晰，本文会将 inference 译为「推断」，将 reasoning 译为「推理」；其中 inference ...

美国至4月25日当周EIA蒸馏燃油产量引伸需求数据 457.41万桶/日，前值505.91万桶/日。

news flash· 2025-04-30 14:36

美国至4月25日当周EIA蒸馏燃油产量引伸需求数据 457.41万桶/日，前值505.91万桶/日。 ...

两位大模型从业者群友如何评价小米MiMo大模型？

理想TOP2· 2025-04-30 13:04

群友AB均为大模型从业者，其中群友B为重度米粉+小米股票持有者。群友A: 小米这个大模型看起来是专门刷数学和代码的榜，其他能力会退化，和真实用户需求匹配度不高。 | Benchmark | # Shots | Llama-3.1 | Gemma-2 | Qwen2.5 | MiMo- | | --- | --- | --- | --- | --- | --- | | | | 8B Base | 9B Base | 7B Base | 7B Base | | General | | | | | | | BBH (EM) | 3-shot | 64.2 | 69.4 | 70.4 | 75.2 | | GPQA-Diamond (EM) | 5-shot | 33.3 | 24.2 | 35.4 | 25.8 | | SuperGPQA (EM) | 5-shot | 19.9* | 22.6* | 24.6* | 25.1 | | DROP (F1) | 3-shot | 59.5 | 67.9* | 61.5* | 69.2 | | MMLU (EM) | 5-shot | 65.3 | 71.2 | 74 ...

XIAOMI(HK:01810)

大模型

蒸馏技术

Artificial Intelligence

Artificial Intelligence

小米MiMo大模型

MindGPT 3.0

新势力 AI 大模型全对比：小鹏野心、理想务实、蔚来追赶

2 1 Shi Ji Jing Ji Bao Dao· 2025-04-29 12:07

21世纪经济报道见习记者何煦阳报道 "AI 一天，人间一年。" 一位 AI 公司联合创始人曾这样形容大模型的发展速度。 2023年3月，OpenAI发布GPT4，不久后，Sora、o1新模型诞生，AI大爆发，这些重要事件启发了诸多新势力车企。小鹏自动驾驶副总裁李力耘告诉《21汽车·一见Auto》，2023年年初，小鹏开始探索如何将端到端运用到自动驾驶领域，去年下半年，小鹏又开始向云端大模型迈进。近日，在AI大模型技术闭门分享会上，李力耘说，小鹏正在研发 720 亿参数的超大规模自动驾驶大模型，即 "小鹏世界基座模型"。所谓小鹏世界基座模型，是一个以LLM（大语言模型）为骨干网络，使用海量多模态驾驶数据训练的多模态大模型，具备视觉理解、链式推理（Cot）和动作生成能力。小鹏希望世界基座大模型能够真正理解、认知，甚至改造物理世界。物理AI也是理想的自动驾驶方案瞄准的最新方向。今年3月，理想自动驾驶技术研发负责人贾鹏在英伟达 2025 春季 GTC 大会上介绍，理想在车端部署了参数为 22 亿的 MindVLA 大模型（Vision-Language- Action Model，视觉-语言-动 ...

速递｜Pruna AI开源模型压缩"工具箱"，已完成种子轮融资650万美元

Z Potentials· 2025-03-21 03:22

图片来源： Pruna AI 欧洲初创公司 Pruna AI 一直在研究 AI 模型的压缩算法，该公司的优化框架将于周四开源。 Pruna AI 在几个月前完成了 650 万美元的种子轮融资。参与此次初创公司投资的包括 EQT Ventures 、 Daphni 、 Motier Ventures 以及 Kima Ventures 。 Pruna AI 一直在构建一个框架，该框架将多种效率方法应用于给定的 AI 模型，如缓存、蒸馏等。 "我们还标准化了压缩模型的保存和加载，应用这些压缩方法的组合，并在压缩后评估你的压缩模型，" Pruna AI 联合创始人兼 CTO John Rachwan 告诉 TechCrunch 。 Pruna AI 的框架能够评估模型压缩后，是否存在显著的质量损失，以及所获得的性能提升。 "如果要用一个比喻，我们类似于 Hugging Face 如何标准化 transformers 和 diffusers ——如何调用它们，如何保存、加载它们等。我们正在做同样的事情，但针对的是效率方法，"他补充道。大型 AI 实验室已经在使用各种压缩方法。例如， OpenAI 一直依赖蒸馏技 ...

AI模型压缩算法

蒸馏技术

Artificial Intelligence

Pruna AI的AI模型优化框架

GPT - 4 Turbo

Flux.1 - schnell图像生成模型

AI模型压缩算法

蒸馏技术

Artificial Intelligence

Pruna AI的AI模型优化框架

GPT - 4 Turbo

Flux.1 - schnell图像生成模型

DeepSeek 刷新全球 AI 格局；50 美元模型蒸馏术；美国公司们宣布 8000 亿美元算力投资丨AI 月报

晚点LatePost· 2025-02-10 09:50

DeepSeek 在 1 月 20 日上线 R1 模型后，凭借高性能（比肩 OpenAI o1）、低使用成本（API 价格是 o1 的 1/30）、开源模型权重等，迅速接管 OpenAI 等公司主导的大模型叙事。 DeepSeek 怎么刷新全球大模型格局李飞飞在内的团队如何低成本 "蒸馏" 出特定领域追赶 o1 的模型到去年底，OpenAI 年化收入超 60 亿美元 OpenAI 的星门计划：投 5000 亿美元建算力 26 家获得超过 5000 万美元融资的 AI 公司，中国有 2 家大模型公司的爬虫遭 "下毒" 抵抗这之前，因为 OpenAI 展示能力超强的 o3 模型，不少 OpenAI 和硅谷的研究者正在讨论 AGI （通用人工智能）即将到来。R1 发布后，行业焦点变成 DeepSeek，一些媒体用 "DeepShock" 形容它带来的冲击。市值大跌的英伟达、台积电，现在已经开始反弹 2025 年 1 月的全球 AI 大事记。文丨贺乾明编辑丨程曼祺 2025 年 1 月的 AI 月报，你会看到：以下是我们第 3 期 AI 月报，欢迎大家在留言区补充我们没有提到的重要进展。格局丨D ...

猫笔刀· 2025-01-29 14:18

韩国那边也有很多闭麦对嘴型的演出，但通常是女团或者男团的唱跳演出，成员有剧烈的舞蹈动作和队形变换，这个时候实力不稳的成员唱出来的歌声犹如杀猪，确实开不了麦。但韩国也有一个潜规则，就是纯歌手（没有舞蹈动作，就是站着唱歌）基本都是现场live，因为你所有的表演内容就是唱歌，如果歌声还是假的你站那里就没意义了。春晚歌曲节目的预制菜含量高这是众所周知的，曾经有那么几年也尝试大力推行现场live，结果事故频发，比如王菲2012年和陈奕迅的《因为爱情》是真唱，你们去搜，节目效果一言难尽。王菲的嗓子早就不太好了，每次唱高音都让人提心吊胆，昨晚那首突然稳如老狗当然是预制菜了。昨晚我说某菲的节目是预制菜，底下有一些可能是粉丝给我一顿数落，我当然不是乱讲了，哪些是预制菜，哪些是现炒的，这对我来说不难分辨。我有个二十多年的爱好，就是看kpop的打歌舞台，这么多年下来看了得有几千个了，哪些是闭麦演出，哪些是半开麦，哪些是全开麦，听多了就知道。这次的人物塑造有亮点，我出人意料的喜欢上了申公豹这个角色，虽然只是几笔简单着墨，但一下子让这个惯常在封神故事里打酱油的配角立体丰满了起来，影片结尾埋下了他的故事线，所以肯定会继 ...