Workflow
知识蒸馏
icon
Search documents
暗蓝评《雅各布之书》|照亮历史,然后治愈世人
Xin Lang Cai Jing· 2025-06-23 03:42
《雅各布之书》,[波兰]奥尔加·托卡尔丘克著,乌兰、李江颐、李佳译,浙江文艺出版社,2024年11月出版,1038页,168.00元 在发表于1961年的短篇小说《加略人犹大的故事》中,陈映真对人们耳熟能详的《圣经》典故进行了创造性改写。在他笔下,犹大成了一位颇有 远见的革命者(日后陈映真表示,他曾想把犹大写成一个"一个改造者,一个解放的人",只是怕父亲看到难过才作罢,见吴舒洁,《左翼的信仰 之难──读陈映真〈加略人犹大的故事〉》,《中国现代文学》2015年第十二期,31-48页),早在耶稣到来之前便意识到犹太复国主义即便成功也 是枉然,"罗马人的担子,罗马人的轭一旦除去又如何呢?因你们将代替他们成为全以色列人的担子和轭。……你们一心想除去那逼迫你们的,为 的是想夺回权柄好去逼迫自己的百姓吗?"(陈映真:《将军族》,九州出版社,2020年,96页)于是即便等到耶稣果真到来,犹大依然保持着警 惕,哪怕见识了他的魅力也极力克制仰慕之情。而他最终也的确发现了耶稣的"破绽",那便是当耶稣不顾危险进入耶路撒冷,立即受到了以色列 人的热烈欢迎,然而耶稣并未就此"揭竿而起",反而任由圣城在热闹过后复归沉寂。"自从那次荣耀的 ...
低成本下的高性能模型,是悖论还是可能?
机器之心· 2025-05-31 17:15
1. 低成本下的高性能模型,是悖论还是可能? 机器之心PRO · 会员通讯 Week 22 用户感知的模型「性能下降」是 AI 公司的有意为之?为什么提供免费满血版 deepseek 推理服务的公司并不多?模型成本居 高不下,真的只能靠「精度换算力」吗?量化和剪枝之外,「业界龙凤」 们都有哪些低成本高性能通吃的 「花活」?... 2. 从性能到实战,怎样才算是靠谱的 Agent 产品? --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- ① 这种不满主要体现在逻辑减弱、错误响应增多、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添 加括号以及只记得最近的提示等问题上。 3、公众对大模型公司为省钱而牺牲模型性能的担忧在技术和市场层面不断得到佐证,并在 DeepSeek-R1 满血版的 争议中加剧。 ① 技术分析显示,满血版 DeepSeek-R1 需要多台高性能 GPU 服务器并行支持,仅一次性硬件投入成本就高达数百 万元。为了避免投入额外硬件,或让有限的硬件可以服务更多的用户,部分平台很可能采用了蒸馏版替代,导致模 型的推理能力和稳定性大幅下降。 为什么评估 Agen ...
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 01:07
白交 发自 凹非寺 量子位 | 公众号 QbitAI 上海交大、27岁、最年轻博导 ,留给张林峰的标签不多了 (Doge) 。 最新引发关注的,是他实实在在的一个论文成果—— 他们提出了一种新的数据集蒸馏方法,结果获得了 CVPR 2025满分 。 通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。与前SOTA相比,新方法的显存占用只有1/300,并且速 度提升了20倍。 不过对于这一结果,张林峰表示有点意外。但能肯定的是 「数据蒸馏」 这一范式会成为接下来模型压缩的趋势之一。 这其实代表着张林峰团队所做的一个方向: 通过数据的角度去加速模型 。 当前AI模型需要基于海量数据进行训练,这显著增加了大型模型的训练成本。我们研究如何更高效地利用数据,更科学地清洗和合成数据,并 利用合成数据进一步增强生成模型,从而实现数据高效的人工智能。 具体是什么意思? 实际上 模型压缩 这个领域其实并不新。作为机器学习中的一个分支,它旨在减少模型的复杂度、存储空间或计算资源需求,同时尽可能保持 其性能。像大家熟知的剪枝、量化、蒸馏都是模型压缩的传统方法。 随着大模型浪潮深入,「大力出奇迹」范式开始 ...
Jeff Dean:一年内 AI 将取代初级工程师,网友:“Altman只会画饼,Jeff说的话才致命”
Xin Lang Cai Jing· 2025-05-18 22:46
编译 | 核子可乐、Tina 最近,谷歌传奇工程师 Jeff Dean 在一次访谈中大胆预测:在一年之内,我们将拥有能够 24/7 全天候运 行、具备"初级工程师"能力的 AI 系统。 Jeff Dean 是现代计算领域的传奇人物,曾主导谷歌在大规模分布式系统和人工智能方面的诸多突破。 他不仅是 Google Brain 项目的联合创始人,还先后推动了 MapReduce、Bigtable、Spanner 和 TensorFlow 等关键系统的诞生,自 2018 年起担任 Google AI 负责人,2023 年在 DeepMind 与 Google Brain 合并后 出任谷歌首席科学家。从参与 BERT 论文、主导 TPU 研发,到推动谷歌基础 AI 架构的演进,Dean 几 乎见证并亲历了谷歌每一个关键的 AI 发展节点。 作为技术界最具影响力的人物之一,Jeff Dean 的这番言论一经发布,迅速在业内引发热议。虽然此前 包括 Sam Altman 在内的不少业内人士也曾表达过类似观点,但 Jeff Dean 的话语分量显然不同。正如有 网友所说:相比那个总在"兜售"某种概念的 Sam Altman, ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...