强化学习

Search documents
质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
机器之心· 2025-06-09 04:33AI Processing
具身智能推动实现通用人工智能
Ren Min Ri Bao Hai Wai Ban· 2025-06-09 04:19
早期人工智能研究者认为,机器可以通过对符号的操作实现对人类思考(理性行为)的模拟,即让机器 像人类那样思考,无需考虑身体和环境。他们把人工智能定义为模拟人类的智能行为,除了模拟思考之 外,还包括感知、动作,以及情感与灵感等。由于他们认为思考和身体、环境是分离的,因此在模拟这 些行为时,是各自独立进行,没有考虑行为之间的相互联系。人工智能的另一学派内在主义,主张人工 智能应该模拟人类大脑的工作原理,我们通常称之为类脑计算。这个学派也没有考虑思考、感知与身体 的关系。因此传统人工智能中的两大学派都属于离身智能。 具身智能强调认知受智能体的感知与动作的影响,主张智能或智能行为来自智能体身体与周围环境的交 互,而不仅仅是大脑的功能。这种思想与建立在笛卡尔身心二元论基础上的离身智能不同,后者没有考 虑大脑与身体之间的联系。具身智能理论对认知科学、心理学、人类学、艺术等都产生了深刻的影响, 由此诞生了具身认知、具身心理学等分支学科。当前,具身智能理论深入大众关注的人工智能、机器人 技术等领域,并产生重大影响。 从传统离身智能发展到现代具身智能 机器人领域首次提出具身智能思想 机器人的研究远在人工智能诞生之前。1954年, ...
跻身史上最大私营融资!传Meta(META.US)拟豪掷数十亿美元投资Scale AI加码AI数据军备竞赛
智通财经网· 2025-06-09 00:01
智通财经APP获悉,据报道,Meta(META.US)正就向Scale AI进行数十亿美元投资展开谈判。这笔融资 估值可能超过100亿美元,使其成为有史以来规模最大的私营企业融资事件之一。2024年,Scale AI在一 轮包括Meta参与的投资中估值已达约140亿美元。 Scale首席执行官Alexandr Wang或许不像OpenAI的Sam Altman那样家喻户晓,但其公司已成为AI三大支 柱——芯片、人才和数据——中数据领域的绝对领导者。这家初创企业通过庞大外包团队,为Meta和 OpenAI等科技公司提供AI模型训练所需的数据标注服务,并协助开发定制化AI应用。据知情人士透 露,Scale正越来越多地招募博士、护士等高学历专家参与复杂模型的开发。 Scale的发展轨迹既受OpenAI引发的AI热潮影响,也反作用于这一趋势。早期,Scale更专注于标注汽 车、交通信号灯和路标的图像,以帮助训练用于构建自动驾驶汽车的模型。但此后,它开始帮助注释和 管理构建支撑ChatGPT等聊天机器人的所谓大型语言模型所需的海量文本数据。这些模型通过从数据及 其各自标签中提取模式来学习。 尽管面临对海外廉价劳工的心理 ...
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
机器之心· 2025-06-08 08:21
当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。 然而,要实现有效的强化学习,需要解决一个根本性的挑战,即 信用分配问题(credit assignment) :在大语言模型的场景下,如何将整个序列(LLM 的回复)最终的评估结果,归因到序列中具体的决策动作(token)上。 这一问题的困难在于奖励信号非常稀疏 — 只能在序列结束时才能获得明确的成功或失败反馈。 当前主要方法 在强化学习中,通常采用优势值估计(advantage estimation)的方法来解决信用分配问题。目前针对大语言模型的强化学习方法主要分为两类,它们之 间的区别在于优势值估计的粒度不同。 粗粒度的轨迹级 (trajectory-level) 方法,如 DeepSeek R1 使用的 GRPO,只根据最终的奖励为整个序列计算一个优势值。这种方法虽然高效但反馈信号 过于粗糙,LLM 无法对错误回答中正确的部分进行奖励,也无法对正确回答中冗余的部分进行惩罚。 论文题目:Segment ...
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 03:45
本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模 型、推荐系统。 最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。 研究者解释道,强化学习对下游任务的提升,关键不仅在于奖励的准确性,而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的 出现频率,而非基于答案正确性的奖励,语言模型依然能够在下游任务中取得非常高的峰值表现。这表明,强化学习对下游任务的提升,更多来源于让模型学会 采用恰当的思考路径接近正确答案。而相关的解题基础能力,模型已在预训练阶段获得。因此,预训练阶段的能力提升依然至关重要。 研究者还展示了基于思考模式的极简奖励如何有效校准奖励模型,从而在开放性 NLP 任务中增强语言模型的表现,并使较小的模型也能通过强化学习成功获得思 考能力。 论文地址:https://huggingface.co/papers/2505.22653 代码链接: ...
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
AI科技大本营· 2025-06-06 10:18
文 | 郑丽媛 出品丨AI 科技大本营(ID:rgznai100) 过去这一年,AI 世界风云再起。 从 DeepSeek R1 、OpenAI o3 的激烈竞逐,到 AI 智能体频频登上技术热榜;从"推理能力"成为衡量大模型的新标准,到人形机器人、具身智能 (Embodied Intelligence)被寄予厚望……我们正站在 AI 技术快速演进的关键时刻。 然而,在这些热闹表象的背后,一场更深层的技术讨论也正在 悄然发生: 我们真的了解智能吗?我们构建的 AI 真的在"学习"吗? 在这样一个值得深思的节点, 加拿大阿尔伯塔大学计算科学系教授、图灵奖得主 Richard Sutton 在 6 月 6 日举行的北京智源大会上,带来了一场名为 《 欢迎来到经验时代 (Welcome to the Era of Experience) 》的 主题演讲。 在 整场演讲中, Richard Sutton 没有谈模型架构、参数量,没有讲热门的大语言模型, 也没有 讨论 多模态系统的未来路线图——他选择回到 AI 的第 一性原理, 提出了一个颠覆直觉、却极具穿透力的主张: 真正的智能,应该来源于经验,而不是人类预设的数据 ...
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
机器之心· 2025-06-06 09:36
DeepSeek-R1 爆火后,类 R1 的结果奖励训练范式在各领域掀起了推理热潮。基于规则的结果奖励实现简单、判断严格。但是,这真的够了吗? 在推理任务中,如果我们只是用「结果对错」来奖励模型,那模型就很可能学会了「靠捷径答题」。 这种模式下,模型的「正确思考策略」没有完全建立起来,它甚至会因为一次「瞎蒙对」的奖励,而在之后反复强化错误策略,越走越偏。 为了解决这个问题,港中文联合上海人工智能实验室团队发布了多模态推理模型 SophiaVL-R1,它在类 R1 强化学习训练框架上做了一次关键进化:不再 只奖励结果是否正确,而是将「思考过程」也纳入奖励体系。 这一套设计不仅能让模型学会更通用、更靠谱的推理策略,还显著提升了泛化能力——在多个数学和通用多模态基准测试中,SophiaVL-R1-7B 甚至击败 了参数量是其 10 倍的 LLaVA-OneVision-72B 模型。 目前,研究团队已将所有模型、数据和代码开源。 思考过程也要评分,才是好模型 SophiaVL-R1 的关键突破点,就在于它引入了「思考奖励」机制 —— 不再只看答案对不对,而是开始评估模型整个推理过程是否合理、连贯、靠谱。 论文链接: ...
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
量子位· 2025-06-06 04:01
WebDancer团队 投稿 量子位 | 公众号 QbitAI 能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。 通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。 WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。 同时,该框架也为在开源模型上复现Deep Research系统提供了可行的指导。团队将进一步在更开放的环境中、结合更多工具,持续拓展和 集成Agentic能力,推动通用智能体的落地与演进。 一、背景:信息检索的新需求与挑战 在信息爆炸的时代,传统的搜索引擎已难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,复 杂问题的解决需要深入的信息挖掘和多步推理能力。这催生了对能够自主思考、自主决策的智能体的需求。 然而,构建这样的智能体面临诸多挑战: 二、突破训练数据难获得问题 在自主信息检索领域,高质量的训练数据至关重要。然而,现有的数据集如2WIKI,HotpotQA多为浅层次问题,难以支持复杂多步推理的训 练需求。 数据过滤 ...
赛道Hyper | 字节跳动VMR²L系统实现工程秒级推理
Hua Er Jie Jian Wen· 2025-06-06 03:22
作者:周源/华尔街见闻 VMR²L是一种虚拟机重调度系统,全称Versatile Multi-agent Reinforcement Learning with Real-time Reasoning,直译就是:具备实时推理能力的、通用多智能体强化学习系统。 此外还有两阶段智能体架构,通过显式约束过滤非法动作,自然满足资源容量、亲和性限制等工业级调 度规则,在不同负载场景下泛化误差小于5%。 测试数据显示,在典型云计算集群中,VMR²L可将资源利用率提升18%-22%,迁移时间从分钟级降至 秒级,为高密度数据中心的实时资源调度提供了可行方案。 6月5日,字节跳动技术团队微信公众号发文称,由字节跳动ByteBrain团队主导,联合加州大学默塞德 分校(UC Merced)与伯克利分校(UC Berkeley),提出了VMR²L,研发出一套基于深度强化学习的 VMR系统:在保持近似最优性能的同时,将推理时间压缩至1.1秒,成功实现系统性能与工业可部署性 的统一。 通过深度强化学习技术,VMR²L将虚拟机资源调度的推理时间压缩至1.1秒,同时保持与传统混合整数 规划(MIP)方法相近的资源优化效果,为云计算、数据中 ...
速递| OpenAI与Benchmark投资前员工创立的初创公司,AI材料科学Periodic Labs估值10亿美元
Z Potentials· 2025-06-06 02:44
图片来源: Periodic Labs 其中最引人注目的新公司是由米拉 ·穆拉蒂创立的 Thinking Machines Lab ,她于去年底卸任 OpenAI 首席技术官一职。据知情人士透露,这家神秘初创企业正以 100 亿美元估值从安德森·霍洛维茨等投 资方筹集超 10 亿美元资金,具体交易条款仍可能变动。 根据这些员工公开的领英资料显示,在今年早些时候宣布成立的这家初创公司博客列出的近 30 名现 有员工中,有超过十余人曾就职于 OpenAI 。此后还有更多人加入。 穆拉蒂并非唯一因投资者渴望复制 OpenAI 成功而获得高估值的前员工。前 OpenAI 首席科学家伊利 亚·苏茨克弗——这位被普遍认为开发了该公司核心技术的功臣,已为一家新 AI 研究实验室筹集了数 十亿美元风险投资,估值超过 300 亿美元。 这使得 Sutskever 的公司成为全球估值最高的人工智能初创企业之一,仅次于 xAI Corp. 和 Anthropic ——这两家同样由 OpenAI 早期关联人士创立。而估值高达 3000 亿美元的 ChatGPT 开发商仍稳居榜 首。 两年半前, Liam Fedus 曾参与 Chat ...