大型语言模型(LLM)

Search documents
仅需1个数据,就能让大模型的数学推理性能大大增强?
机器之心· 2025-05-09 09:02
论文发现,只在 RLVR 训练中使用一个训练数据(称作 1-shot RLVR),就可以在 MATH500 上,将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。 这个表现和使用 1.2k 数据集(包括这一个数据)的 RLVR 效果差不多。 使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集(称作 DSR-sub)的表现, 和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。 本文第一作者王宜平是华盛顿大学的博士生,其导师、通讯作者杜少雷为华盛顿大学Assistant Professor;另外两位通讯作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。 最近, 大型语言模型(LLM)在推理能力方面取得了显著进展,特别是在复杂数学任务上。推动上述进步的关键方法之一就是带可验证奖励的强化学习 (Reinforcement Learni ...
AI智能体协议全面综述:从碎片化到互联互通的智能体网络
欧米伽未来研究所2025· 2025-05-06 13:33
" 欧米伽未来研究所 " 关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将 不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。( 点击这里查看欧米伽理论 ) 《人工智能智能体协议调研》是上海交通大学杨映璇、柴华灿、宋远逸等学者撰写的一项综合性 研究报告。该报告首次对现有的AI智能体协议进行了全面分析,提出了一个系统的二维分类框 架,区分了面向上下文的协议与智能体间协议,以及通用型与特定领域的协议。 报告指出,随着大型语言模型(LLM)的快速发展,LLM智能体已在客户服务、内容生成、数据分 析和医疗等多个行业广泛部署,但由于缺乏标准化的通信协议,使智能体之间难以有效协作和扩 展,限制了解决复杂问题的能力。 核心内容包括对安全性、可扩展性和延迟性等关键性能维度的比较分析,以及对智能体协议未来 发展趋势的探讨,如分层架构、适应性与进化性、隐私保护与联邦学习和基于群体的交互机制 等。这项研究为研究人员和工程师设计、评估或集成智能体通信基础设施提供了实用参考。 解锁协作的钥匙:不同智能体协议的运作模式探秘 为了更直观地理解AI智能体协议的重要性及其运作方式,我们可以通过一个具体的、与我们 ...
微软正式开源UFO²,Windows桌面迈入「AgentOS 时代」
机器之心· 2025-05-06 08:04
近年来,图形用户界面(GUI)自动化技术正在逐步改变人机交互和办公自动化的生态。然而,以 Robotic Process Automation(RPA)为代表的传统自动化工具通 常依赖固定脚本进行操作,存在界面变化敏感、维护成本高昂、用户体验欠佳等明显问题。 同时,近年来兴起的基于大型语言模型(LLM)的计算机智能体(Computer-Using Agents,CUA)虽然展现出灵活的自动化潜力,但多数方案仍停留在概念验证 或原型阶段,缺乏与操作系统深度集成的能力,制约了其在实际工作环境中的规模化应用。 针对这些行业痛点,作为前代纯 GUI 桌面智能体 UFO 的全面升级版, 微软研究团队近日正式开源了业内首个深度集成 Windows 操作系统的桌面智能体平 台 ——UFO² AgentOS 。 该平台不仅继承了 UFO 的强大 GUI 操作能力,还在系统层面进行了深度优化,显著提升了智能体在 Windows 环境下的操作效率与稳定 性。 本论文第一作者为微软 DKI 团队的 Chaoyun Zhang,其为 Windows 平台首个智能体系统 ——UFO 的核心开发者,该项目已在 GitHub 上开源并获得 ...
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
Hua Er Jie Jian Wen· 2025-04-27 10:38
Group 1 - Investor sentiment has deteriorated due to macroeconomic and supply chain risks, but demand for NVIDIA's GPUs has surged due to the significant need for inference chips driven by large language models (LLMs) [1] - Token generation has increased over five times since the beginning of the year, creating immense pressure on the ecosystem and driving a surge in investment to handle these workloads [1] - AI companies are experiencing explosive user growth, with many forced to compete for GPU resources to meet the massive demand for inference software [1] Group 2 - Morgan Stanley has lowered its target price for NVIDIA to $160 from $162, reflecting overall valuation declines in the peer group rather than changes in the company's fundamentals [2] - Despite strong demand, supply constraints for NVIDIA's Blackwell chips, particularly the GB200/300 models, are limiting the ability to meet the explosive growth in demand [2][4] - Morgan Stanley has raised its revenue forecast for fiscal year 2026 by 10.7% and adjusted earnings per share up by 11.9%, indicating that these figures may still be conservative [5]
人工智能芯片大赢家
半导体芯闻· 2025-04-07 11:07
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容 编译自 semiengineering ,谢谢。 2025 年初,我认为 AI 被过度炒作,ASIC 仍是小众产品,市场回调不可避免。我的长期观点发生 了巨大变化。AI 技术和应用正在以惊人的速度加速发展。GenAI/LLM 领导者之一 Nvidia 将在 2030 年成为首家市值达到 10 万亿美元的公司。 大型语言模型 (LLM) 在功能和成本效率方面都在迅速提高。目前每周有超过 5 亿用户,其中 ChatGPT 领先,而且这个数字还在快速增长。这种指数级增长推动了数据中心使用量和资本支出 的大幅增加,主要由领先的 CSP 推动——亚马逊、微软、谷歌、Meta 和现在的 OpenAI。其中四 家是市值达万亿美元的公司。他们将挑选半导体赢家。 类别细分和主要参与者: 1 GPU/AI 加速器 赢家: Nvidia 在 GTC 2025 上,Nvidia 首席执行官黄仁勋预测,到 2028 年全球数据中心资本支出将达到 1 万 亿美元。按照这个速度,到 2030 年数据中心资本支出可能达到约 1.4 万亿美元。我在这次分析中 寻找的是大局——5 年后的数字 ...