Workflow
强化学习
icon
Search documents
以“类人”驾驶体验重塑智能出行,地平线携HSD亮相香港
Nan Fang Du Shi Bao· 2025-06-13 08:43
陈黎明表示:"中国汽车智能化水平正持续攀升,地平线始终坚守技术创新之路,依托开放生态与十年 软硬结合技术沉淀,构建覆盖全场景辅助驾驶应用的解决方案体系。面对智能驾驶价值拐点,地平线以 征程6系列和HSD为全球客户提供性能最优、灵活可升级的智驾解决方案,推动智能驾驶面向全球汽车 市场的量产落地"。 记者在现场了解到,针对当前行业发展趋势和用户需求,地平线首创基于辅助驾驶领域的 "用户智驾信 任度" 公式,以安心度、专业度、亲密度这三个维度作为综合考量指标,精心打造出一套体验 "类人"、 用户 "信任" 的极致城区辅助驾驶系统。 作为国内首个实现软硬结合全栈开发的城区辅助驾驶系统,地平线HSD搭载的征程6P宛如一颗强大的 "智慧心脏",能为整个系统的高效运行提供澎湃动力。 2025年6月12日,香港亚洲博览馆被一片科技与汽车交织的热潮所笼罩,2025首届国际汽车及供应链博 览会(香港)上,各类酷炫车型与前沿科技展品让人目不暇接,空气中弥漫着人们对未来出行的期待。 作为国内率先在香港交易所主板挂牌上市的智驾科技企业,携城区辅助驾驶系统Horizon SuperDrive (简称HSD)和车载智能计算方案征程6系列亮 ...
“人工智能强化学习可持续发展计划”在四川成都发布
Sou Hu Cai Jing· 2025-06-11 14:08
据了解,人工智能强化学习可持续发展计划将面向高校启动报名,申请时间持续到2025年12月31日。(记者李力 可) 6月11日,人工智能赋能可持续发展论坛现场。新华社记者 刘坤 摄 据了解,该计划旨在通过教育普惠打破人才壁垒、实现"技术共享"推动"发展共享",助力构建可持续的人工智能 生态。基于国内自研AI多智能体强化学习开放平台"腾讯开悟",将向全球高校提供"低门槛、标准化"的人工智能 通识教育和强化学习教学资源,助力共建"一带一路"国家人工智能学科建设,培育兼具人工智能理论素养与工程 能力的复合型人才梯队。 在该计划中的强化学习系统系列标准共建方面,由腾讯开悟平台、北京大学、中国科学技术大学联合牵头,协同 近30所国内高校科研机构和科技企业,共同在中国计算机学会制定发布。该标准的发布,旨在为强化学习系统设 计和应用生态构建提供标准指引,推动全球强化学习领域从"技术割裂"走向"生态共治"。 论坛上,之江实验室主任王坚,罗马尼亚科学院院士、罗马尼亚国家科学院副院长马里乌斯·安德鲁,腾讯公司副 总裁蔡光忠等嘉宾围绕"计算与人工智能:无尽的前沿和探索""配位化学在材料科学中的关联性与在人工智能领域 的挑战""科技向 ...
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
量子位· 2025-06-11 08:07
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI "预测下一个token" ——这个支撑LLM的核心训练机制,正在被强化学习颠覆。 微软亚洲研究院 (MSRA) 联合清华大学、北京大学提出全新预训练范式 RPT (强化预训练) ,首次将强化学习深度融入预训练阶段,让 模型在预测每个token前都能先"动脑推理",并根据推理正确性获得奖励。 传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点 缀的一颗樱桃。 现在RPT要做的就是 用樱桃直接做蛋糕 ,即将这一过程重构为推理任务,促进模型更深层次理解和提升下一个token的预测准确度。 | | Qingxiu Dong* # | | Li Dong* † | | | --- | --- | --- | --- | --- | | Yao Tang1 Tianzhu YeTs | | Yutao Sun18 | Zhifang Sui+ | Furu Weit | | | 1 Microsoft Research | | | | | | + Peking University | | ...
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 03:54
| 机器之心报道 | | --- | 编辑:张倩、陈陈 谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢? 在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是 蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身。」 从 2016 年至今,LeCun 对强化学习一直不看好。然而,不可否认的是,强化学习在提升 AI 模型能力方面正变得越来越重要。而且,来自微软的一项新研究显 示,它不仅在后训练阶段发挥着关键作用,甚至在预训练阶段也展现出巨大的潜力。 在这篇题为「Reinforcement Pre-Training」的论文中,作者提出了一种名为「强化预训练(RPT)」的新范式。在这种范式中,下一个 token 预测任务可以被重新定 义为一个通过强化学习训练的推理任务。在这一任务中,模型会因正确预测给定上下文中的下一个 token 而获得可验证的奖励。 这就好比在制作蛋糕的过程中,直接将樱桃融入到蛋糕的主体结构中。 作者指出,RPT 范式的好处在于 ...
Mistral的首个强推理模型:拥抱开源,推理速度快10倍
机器之心· 2025-06-11 03:54
机器之心报道 编辑:泽南 强推理终于要卷速度了。 大模型强推理赛道,又迎来一位重量级玩家。 本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。它能够进行不断反思,并解 决更复杂的任务。 此次发布包含两个版本:面向企业客户的大型专有模型 Magistral Medium,以及一个 24B 参数的开源版本 Magistral Small。其中开源版本使用 Apache 2.0 许可,可以自由使用、商用化;Magistral Medium 则可通过 Mistral 的 Le Chat 界面和 La Plateforme API 访问。 在基准测试中,新模型取得了不错的成绩。这里主要是 Magistral 与其前身 Mistral-Medium 3 和 DeepSeek 系列的对比。Magistral Medium 在 AIME2024 上的得分为 73.6%,其中多数投票为 64%,得分为 90%。Magistral Small 的得分分别为 70.7% 和 83.3%。 新模型在一些其他高要求测试中也表现出色,包括研究生水平的 ...
腾讯研究院AI速递 20250611
腾讯研究院· 2025-06-10 14:58
生成式AI 一、 苹果 六大OS大变样,AI模型免费开放 ,但新Siri 又鸽了 1. 苹果发布六大系统统一设计,采用全新"Liquid Glass"流体玻璃元素,视觉效果大幅提 升; 2. 开放端侧大语言模型访问权限给所有App,系统级AI功能无处不在,包括视觉搜索、实时 翻译; 3. iPadOS窗口系统迎来重大更新, macOS联动iPhone功能增强 ,但新Siri再次推迟发布。 https://mp.weixin.qq.com/s/U7SmtQdmLX9N3qGJNnM1Rw 二、 苹果推出 Xcode 26 开发者工具,内置 ChatGPT 等 AI 功能 1. 苹果宣布Xcode 26将集成ChatGPT,使开发者能通过AI辅助代码编写、文档生成和错误 修复; 2. 新增窗口置顶功能,让划词结果窗口固定悬浮,不打断阅读节奏提高效率; 3. 升级功能特别适用于浏览外文网站、阅读英文文档和专业论文场景,可更新最新版本使 用。 2. 开发者可通过API密钥将其他供应商的AI模型引入Xcode,构建多元智能编程生态; 3. 苹果发布Foundation Models框架,让开发者仅需三行代码即可调用设备 ...
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 04:05
RaML团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLM)以其卓越的文本生成和逻辑推理能力,深刻改变了我们与技术的互动方式。然而,这些令人瞩目的表现背后, LLM的内部机制却像一个神秘的"黑箱",让人难以捉摸其决策过程。 上海AI Lab的研究团队的近期提出Reasoning as Meta-Learning(RaML),尝试从 梯度下降 和 元学习 (Meta-Learning)的角度,揭示 了LLM如何"思考",并为优化其性能提供了新思路。 RaML的核心洞察:推理即"梯度下降" RaML框架的核心在于一个直观的类比:LLM在解决问题时生成的"推理轨迹"(即一步步推导的过程),就像模型参数在优化过程中的"伪梯度 下降"更新。 这意味着,当LLM进行多步推理时,其内部状态(即模型参数)会像典型的参数优化过程一样,逐步地"调整"和"适应",每一步都朝着更优的 解决方案逼近,直到得出最终的答案 。 研究团队通过理论推导发现,在Transformer模型中,每个推理轨迹的令牌都可以看作对参数的一次 "隐式更新" 。考虑典型的transformer块 的计算过程,当输入中增加一个推理轨迹令牌 ...
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 02:23
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 大模型目前的主导地位只是暂时的,在未来五年甚至十年内都不会是技术前沿。 这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。 就在刚刚的新加坡国立大学建校120周年 (NUS120) 之际,Sutton受邀发表演讲——塑造AI和强化学习的未来。 其实,这已经不是Sutton第一次在公开场合表达类似的观点,早在他19年的著作《痛苦的教训》中,他就明确提出: 让AI尤其是LLM模仿人类思维方式,只能带来短期的性能提升,长期看只会阻碍研究的持续进步。 在他4月份新发表的论文《欢迎来到体验时代》也再度强调了这点,同时他表示,扩展计算才是正解。 本次NUS120演讲长达一个多小时,可谓是干货满满、信息量超大。 让我们一起来看看完整演讲内容。 LLM主导是暂时的 Sutton首先提及当前人类处于数据时代,像ChatGPT这类大语言模型,都是靠分析人类产生的大量数据 (如文本、图像、视频) 进行训 练。 但始终追逐人类思维方式,至多也只能达到 "人类水平" 。 在数学、科学等领域,人类数据里的知识已经接近极限,AI难以突破现有认知,纯靠模仿已经 ...
全景解读强化学习如何重塑 2025-AI | Jinqiu Select
锦秋集· 2025-06-09 15:22
进入2025年中,强化学习正在将AI的能力边界向多个维度同时拓展。从OpenAI o3开创的原生工具调用能力,到Claude Opus 4展现的连续编码任务处理能力,AI模 型正在向更实用的维度进化。 更令人瞩目的是,递归自我改进已经从科幻概念变为现实——模型开始参与训练下一代模型,通过优化编译器、改进内核工程甚至调整超参数来加速自身进化。 RL训练范式的兴起正在深刻重塑整个AI产业格局: 硬件需求从预训练的集中式架构转向分布式推理密集型架构,Nvidia NVL72系统专门为此增强内存;基础设施实现去中心化,RL各阶段可在不同地点执行; 组织结构随之重组,OpenAI、Anthropic等巨头纷纷合并推理与训练团队;数据正在成为新的护城河,拥有用户行为数据的企业可通过强化微调构建独特优势,无需 投入巨额预算合成数据。 SemiAnalysis的分析师Dylan Patel和AJ Kourabi写了一篇深度报告,系统剖析了强化学习是如何成为推动AI从当前水平向AGI迈进的关键技术的,以及在这个过程中 需要克服哪些技术、工程和资源挑战。 他特别预测了OpenAI的发展路线图: 即将到来的o4将基于推理成本更低但 ...
AGI最后拼图,一文看懂什么是强化学习?其护城河是什么?
Hua Er Jie Jian Wen· 2025-06-09 10:47
当DeepSeek-R1以更低成本实现类似性能突破时,Claude能够连贯工作数小时完成复杂任务时,意味着AI发展已经迈入推理时代,强化学习技术的 重要性不言而喻,将重塑AI产业的技术栈乃至商业模式。 6月8日,AI研究公司SemiAnalysis发布长篇报告《强化学习:环境、奖励破解、智能体、扩展数据》,深度剖析了强化学习的工作原理以及影响 因素,并预测了后续AI发展趋势。 报告表示,强化学习(RL)或成为AGI前最后关键范式,其理密集型特性带来了算力挑战。此外,高质量数据是强化学习护城河,AI设计AI的循 环加速技术迭代。 1. 强化学习(RL)或成为AGI前最后关键范式:强化学习是推动大模型推理能力跃升的核心技术,尤其在思维链(CoT)生成和长 程任务连贯性上表现突出,被视作实现AGI前的终极技术路径。 2. 可验证奖励场景率先商业化:编码、数学等奖励函数明确的任务(如SWE-Bench性能提升30%+)已实现落地,OpenAI的o1、 DeepSeek-R1等模型验证其价值。医疗、写作等非验证领域通过"LLM评判者+人工评分标准"构建奖励函数(如HealthBench医疗 评估),OpenAI、阿里Q ...