语言模型

Search documents
“不用 Cursor和 ChatGPT、手写代码的开发者,怕不是疯了?”
3 6 Ke· 2025-06-03 08:53
从 1990 年代中期就开始从事软件开发的 Thomas Ptacek 写了一篇文章,字里行间透露出一种近乎无奈的挫败感。他精准捕捉了一个经验 丰富的程序员在网上试图为"LLM 其实真的很有用"辩护时所感受到的孤立与无力。他写道: 在我认识的顶尖聪明人里头,不少都坚信 AI 只是一时得势——可以说是 NFT 热潮的又一个翻版。我一直不想反驳他们,因为 人家确实比我水平高。但他们的论点却并不严肃,甚至可以说站不住脚。有些聪明人其实是心里不想承认,自己的很多工作已 经可以被大模型替代乃至完成得更好。 简单来讲,哪怕大语言模型的发展就到目前的水平止步,那它也足以成为我整个职业生涯中亲身见证的第二大技术突破。 Thomas Ptacek 给这篇文章取名为《我那群怀疑 AI 的朋友,都疯了》,一半是吐槽,一半是真情流露。 但问题在于,"疯子"到底是谁? 对支持者来说,疯子是那些到了 2025 年还拒绝使用 AI 辅助开发的人。无独有偶,一位来自 TextToSlides.AI 的工程师在博客中写道: 昨天我看到一个场景让我当场愣住:一位同事坐在工位前,一行一行敲代码,没有 Copilot 自动补全,没有 ChatGPT ...
重磅报告下载 | 2025生成式AI: 当DeepSeek颠覆行业, 近2万亿美元的市场有哪些机遇?
彭博Bloomberg· 2025-06-03 06:30
本文节选自彭博终端"彭博行业研究《2025年生成式AI展望》",彭博终端用户可运行{NSN SWJ7Y1DWX2PS0 }阅读。如您还不是终 端用户,您可在文末"阅读原文"联系我们预约产品演示。 彭博行业研究 2025年生成式AI展望 生成式人工智能(AI)和大语言模型(LLM)的应用已经渗透到科技领域的各个环节并迅速发 展。预计到2032年, 这个市场将创造约1.8 万亿美元的收入。 彭博行业研究认为,随着由思维链和强化学习加持的推理模型更受青睐,LLM的应用可能从基 于文本的搜索扩大至各种图片、音频和视频的分析;除了LLM赋能的合同审查和客服聊天机器 人等现有用例外,集成写作和编程助手以及利用文本和语音提示词生成图像和视频的工具,也 将推动生成式 AI智能体在消费端和企业端的部署;DeepSeek问世后,大多数LLM公司都致力 于提高模型效率,从而实现大规模推理。 核心议题: 长按或扫描二维码 阅读完整报告 推理超过训练的时间有望提前: 推理支出超过训练支出的时间可能比我们之前的预测至 少提前三年。 大语言模型之间的差距缩小: OpenAI的GPT、谷歌的Gemini、Meta的Llama、 Anthro ...
思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
机器之心· 2025-06-03 06:26
在大语言模型(LLM)飞速发展的今天,Chain-of-Thought(CoT)技术逐渐成为提升复杂推理能力的关键范式,尤 其是在数学、逻辑等结构化任务中表现亮眼。 本文的共同第一作者是徐皓雷和颜聿辰。徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释 性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。本文通讯作者是浙江大学鲁 伟明教授和沈永亮研究员。 但你是否注意到:即使是精心构建的 CoT 数据,也可能存在 "跳跃式" 推理,缺失关键中间步骤。对人类专家来说这 些步骤或许 "理所当然",但对模型而言,却可能是无法逾越的鸿沟。 为了解决这一问题,浙江大学联合微软亚洲研究院、香港中文大学提出了 Thought Leap Bridge 任务,并开发了思维 链修复方法:CoT-Bridge。实验显示,该方法显著提升了多个数学与逻辑任务中的推理准确率,并能作为 "即插即用" 的模块嵌入到知识蒸馏、强化学习等流程中。 CoT 不等于 Coherent-of-Thought 思维跳跃是如何破坏推理链的? CoT 的设计初衷是让大模型像人一样 "按步骤思考",然而研究团队发 ...
四月游戏收入同比增长超20%,游戏ETF(516010)涨超3%
Mei Ri Jing Ji Xin Wen· 2025-06-03 03:01
相关机构表示,人工智能持续发展有望提振游戏板块。游戏领域属于比较成熟的人工智能应用领域,未 来结合大语言模型能否产生新的玩法也是游戏行业的增长点之一。例如剧本编写方面,给大语言模型一 个提纲去编写剧本,再给它一些新的指引,让它再去调优,未来或可产生新的玩法。未来可能通过大语 言模型直接赋予游戏内人物独立人格,可以让它自己在游戏的世界里面去完成自己的动作和行为,也即 真正能够在虚拟世界里面再去创造出虚拟世界。 注:指数/基金短期涨跌幅及历史表现仅供分析参考,不预示未来表现。市场观点随市场环境变化而变 动,不构成任何投资建议或承诺。文中提及指数仅供参考,不构成任何投资建议,也不构成对基金业绩 的预测和保证。如需购买相关基金产品,请选择与风险等级相匹配的产品。基金有风险,投资需谨慎。 (文章来源:每日经济新闻) 消息面,伽马数据显示,2025年4月中国游戏市场规模达273.51亿元,同比增长21.93%,其中移动游戏 同比增长28.41%,出海收入同比增长9.62%。 中信建投表示,Deepseek R1深度思考能力全球领先。R1在数字测试AIME2024和代码测试 LiveCodeBench中均超越o3和Gemi ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
猿大侠· 2025-06-02 04:22
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
量子位· 2025-06-01 03:40
Ubiquant团队 投稿 量子位 | 公众号 QbitAI 无需标注数据、无需繁琐奖励设计,只用10步就能见效—— 「熵最小化」或许比强化学习更适合大语言模型快速升级 。 强化学习(RL)近年来在大语言模型(LLM)的微调中大获成功,但高昂的数据标注成本、复杂的奖励设计和漫长的训练周期,成为制约RL 进一步应用的瓶颈。 Ubiquant研究团队提出了一种极为简单有效的无监督方法——One Shot熵最小化(Entropy Minimization,EM),仅用一条无标签数据, 训练10步内即可显著提升LLM性能,甚至超过使用成千上万数据的RL方法。 一、从RL到EM:LLM微调的困境与新思路 当前,大语言模型(LLM)在经过海量数据预训练后,展现出了惊人的通用能力。然而,要让模型在特定、复杂的推理任务(例如数学、物理 或编程)上达到顶尖水平,后训练(post-training)主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。 尽管基于RL的微调在提升模型性能上取得了显著进展,但其过程却面临着一系列明显的弊端,使得这种方法成本巨大且过程繁琐。 相较之下,熵最小化(EM)提出了 ...
揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘
量子位· 2025-06-01 03:40
训练中暴露的敏感信息往往被模型"记住",引发广泛关注。 Machine Unlearning团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLMs)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面。 在此背景下, 机器遗忘(Machine Unlearning) 技术应运而生,目标是在不影响整体能 力的前提下,有选择性地抹除特定知识。 来自香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究团队通过构建一套表示 空间的诊断工具,系统性地区分了 "可逆性遗忘"与"灾难性不可逆遗忘" ,并首次揭示了遗 忘现象背后的表示结构变化规律—— 真正的遗忘只有在多个网络层发生协同且大幅度扰动时才会出现;而相比之下,在高敏感区 域(如输出logits)中进行轻微更新虽然会显著降低准确率或提高困惑度,但模型内部表示 结构仍可保持完整。 研究人员整理成了一个统一的表示层分析工具箱,支持诊断LLM在 Unlearning/Relearning/Finetuning等过程中的内在变化。 真正的遗忘,是结构性的抹除,而非行为的抑制 研究者提出:"一个模型若仅仅在token输出上'忘记',而其内部结构几乎未变, ...
Redis 之父亲证:人类程序员仍力压 LLM!网友锐评:那是你没见过平庸码农被 AI 吊打的样子
程序员的那些事· 2025-05-30 07:10
自从 ChatGPT 火起来后,有些大厂高管在推动「AI 替代程序员」的说法。 前些天,小程程分享了 Java 之父高斯林对 AI 的看法。没看过的童鞋,请戳这里:《 Java 之父怒斥:AI 是 场骗局,无法取代程序员,在编程方面的最大作用是生成没人想写的文档 》。 5 月 30 日凌晨,Redis 之父 antirez 写了一篇文章,标题即为他的观点: 人类程序员仍比 LLM 更胜一筹! 人类程序员仍比 LLM 更胜一筹 这是一个关于人类为何仍比大语言模型(LLMs)更具能力的小故事。 先说明,我并非反对 AI,了解我的人或关注过我的人都清楚这一点。我日常会频繁使用 LLM ,比如今天,我 会用它来验证想法、进行代码审查、判断是否存在比我设想中更好的方案,或是探索我专业领域边缘的内容等 等( 差不多两年前,当用 LLM 编程还不算流行时,我就写过一篇相关博客;我一直都在使用这类工具,后续 得写篇更新,但这不是本文的重点 )。 不过,尽管当前的 AI 已经很有用、甚至很出色,但它与人类智能的差距仍然巨大。我想强调这一点,因为最 近很难进行客观平衡的讨论。 1. 我们加载了损坏的数据,其中显示 A 连接到 B ...
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 04:16
本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。 近年来,随着大语言模型的快速发展,基于其构建的大模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。然而,真正实现规模化应用仍面 临诸多瓶颈。使用范围主要集中于专业领域,如代码生成、科研辅助等。在大众、高频、日常的应用场景(如电商、个人助理)中,普及率依然较低。这一 现象引发了一个关键问题: 当前制约大模型智能体实际可用性的真正原因是什么? 上海交通大学联合中科大在本文中指出:现阶段大模型智能体的主要障碍不在于模型能力不足,而在于其「Agentic ROI」尚未达到实用化门槛。 论文题目 :The Real Barrier to LLM Agent Usability is Agentic ROI 论文链接 : https://arxiv.org/pdf/2505.17767 Agentic ROI:大模型智能体实现规模化应用的关键瓶颈 研究团队提出 Agentic ROI(Agentic Return on Investment)这一核心指标,用于衡量一个大模型智能体在真实使用场景中所带来的 ...