Workflow
Reinforcement learning
icon
Search documents
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
Founder Park· 2025-07-11 12:07
「停止研究 RL 吧,研究者更应该将精力投入到产品开发中,真正推动人工智能大规模发展的关键技术是互联网,而不是像 Transformer 这样的模型架 构。」 前 OpenAI 研究员 Kevin Lu 最近更新了一篇博客长文《The Only lmportant Technology ls The Internet》,直指互联网才是推动人工智能进步的核心技术, 是 next-token 预测的完美补充。 Kevin Lu 认为,没有 Transformer 架构,我们可能也会拥有 GPT-4.5 级别的大模型。在 GPT-4 模型以来,基础模型的能力并没有显著的提升,我们可能会 像 2015-2020 年时代的 RL 研究一样,重蹈覆辙,正在进行无关紧要的 RL 研究。 而互联网提供了丰富而海量的数据来源,这些数据具有多样性、能提供自然的学习课程、代表了人们真正关心的能力,并且是一种经济上可行的规模化部 署技术。相比之下,单靠优化模型结构、手工制作数据集或微调算法,都难以带来模型能力质的飞跃。 有趣的是,Kevin Lu 此前在 OpenAI 任职时的主要研究方向之一正是 RL。在推特上,有博主评论道,「当 ...
Grok 4 is really smart... Like REALLY SMART
Matthew Berman· 2025-07-10 22:31
Gro 4 just dropped and yes Elon was right. It is the smartest model in the world at least currently and it is a pretty significant leap from other Frontier models. So first let me walk you through the progression of the Gro series of models.This was a slide from last night's live stream. We can see Grock 2 which by the way was only like 2 years ago and we have it right here. It was just next token prediction.Here's the amount of compute. And with Grock 3, they 10xed their pre-training compute and it was a r ...
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 04:26
回顾大模型(LLM)的成功之路,是利用 Next Token Prediction 的形式统一了所有任务,解决了任务形式不同导致无法泛化的难题。而奖励模型(RM)的设计仍 然在重蹈传统方案的老路,即为特定场景标注偏好数据,训特定场景的 RM。因此,是否可以仿照 LLM 的成功之路,重新设计 RM 的训练范式呢?消除 RM 的 "打分标准",就像消除 LLM 的 "任务形式" 一样,找到一个 脱离于 "打分标准" 之外的更本质的优化目标函数 来进行预训练 ,从而达到真正的通用性。 机器之心发布 机器之心编辑部 在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向 AGI 的核心方法。然而,奖励模型的设计与训练始终是制约后训练效果的 关键瓶颈。 目前,主流的奖励建模方法包括 " 基于偏好的奖励建模 "(Preference-based Reward Modeling)和 " 基于规则的验证 "(Rule-based Verifier)两种方法。 其中,"基于偏好的奖励建模" 一般利用标注的偏好对数据来训练奖励模型,这种方法存在着诸多局限。首先,高质量偏好数据的 获取成本极高,难以大规模扩展 ...
两个华人 AI 分别融了数千万美金:创始人都来自 Meta
投资实习所· 2025-07-09 05:42
华人以及华人背景的 AI 团队,持续在 AI 各领域创造新的价值,最近又有两个华人 AI 产品在早期就拿了不少融资,而且创始人都来自 Meta,并且都是面向企业级 B 端市场。 其中同样做通用 AI Agent 的 Pokee AI 今天宣布完成了 1200 万美金的种子轮融资,由 Point72 Ventures 领投,跟投方包括了高通、三星、 锦秋基金以及 Typeface 创始人 Abhay Parasnis 和 SIG 的吴琼等。 创始人 Bill Zhu 说其融资额度甚至超额认购了 3 倍, 其愿景是让任何人都能轻松、快速、可靠地大规模地实现任何在线工作流程的自动化 。 Bill Zhu 之前是 Meta AI 应用强化学习组负责人,斯坦福大学强化学习博士。Pokee 的做法是,通过将 AI 功能(比方说文本、图像、视 频、PDF 和代码中的内容(文本/图像/视频/音乐/语音)生成和编辑,以及智能搜索、幻灯片创建和智能电子表格分析)直接集成到各种集 成工具和服务中,使用户能够实现工作流程自动化。 这些工具和服务包括了 Google Workspace(搜索、幻灯片、文档、日历、Gmail、云端硬盘、 ...
DeepSeek 复盘:128 天后 ,为何迟迟推迟发布——SemiAnalysis
2025-07-07 15:45
Juy , 2025 DeepSeek Debrief: 128 Days Later //Traffic and User Zombification, GPU Rich Western Neocouds, Token Economics Tokenomics) Sets the Competitive Landscape minutes No comments By , and Wei Zhou AJ Kourabi Dyan Pate SemiAnaysis is hiring an anayst in New York City for Core Research, our word cass research product for the finance industry. Pease appy here t's been a bit over 150 days since the aunch of the Chinese LLM DeepSeek R1 shook stock markets and the Western A word. R1 was the first mode to be ...
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 09:20
在近20年AI发展的路线上,我们正站在⼀个前所未有的转折点。从早期的符号推理到深度学习的突破,再 到如今⼤语⾔模型的惊艳表现, AI 技术的每⼀次⻜跃都在重新定义着⼈类与机器的关系。⽽如今,具身智 能正在全面崛起。 MuJoCo ( Multi-Joint dynamics with Contact )不仅仅是⼀个物理仿真引擎,它更是连接虚拟世界与现实世 界的重要桥梁。在具身智能的技术⽣态中, MuJoCo 扮演着⾄关重要的⻆⾊,它为机器⼈学习提供了⼀个 ⾼保真、⾼效率的训练环境。 当我们谈论机器⼈学习时,⼀个核⼼问题是:如何让机器⼈在不损坏昂贵硬件的情况下,快速掌握复杂的 运动技能?传统的⽅法是在真实机器⼈上进⾏⼤量试错,但这种⽅式不仅成本⾼昂,⽽且效率低下,甚⾄ 可能存在安全⻛险。MuJoCo的出现彻底改变了这⼀现状。 通过 MuJoCo ,研究者可以构建⾼度逼真的虚拟机器⼈和环境,让 AI 系统在仿真中进⾏数百万次的试验 和学习。这种⽅法的优势是显⽽易⻅的:⾸先,仿真速度可以⽐现实时间快数百倍,⼤⼤加速了学习 过 程;其次,在虚拟环境中,机器⼈可以尝试各种极端情况⽽不⽤担⼼硬件损坏;最重要的是,通过精⼼ ...
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 12:41
作者 | 瀑风 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1916810989434807458 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『VLA』技术交流群 本文只做学术分享,如有侵权,联系删文 2025年5月,VLA的RL领域掀起了一股热潮,不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上, 而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。 早期探索:iRe-VLA (Improving Vision-Language-Action Model with Online Reinforcement Learning) ★ https://arxiv.org/pdf/2501.16664 arxiv.org/pdf/2501.16664 这篇文章的核心算法是PPO,并且针对在线强化学习不稳定的问题提出了双阶段的训练范式: 具体实现上,此文没有采用已有的VLA模型结构,而是将BLIP-2 3B用于VLM backb ...
首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
机器之心· 2025-06-30 09:49
论文链接:https://arxiv.org/abs/2506.20512 代码仓库:https://github.com/GAIR-NLP/OctoThinker 近期,一份来自上海创智学院、上海交通大学的前沿研究论文吸引了人工智能领域的广泛关注。该论文深入探讨了不同基础语言模型家族(如 Llama 和 Qwen)在 强化学习(RL)训练中迥异表现的背后原因,并提出创新性的中期训练(mid-training)策略,成功地将 Llama 模型改造成高度适配强化学习的推理基础模型,显 著缩小了其与天生擅长 RL 扩展的 Qwen 模型之间的性能差距,为下一代 reasoning 能力 AI 系统的开发提供了关键的科学基础和技术路径。 论文发布后在社交媒体引发广泛关注,Meta AI 研究科学家、即将赴 UMass Amherst 任助理教授的 Wenting Zhao 率先盛赞:"Truly impressed by how an academic lab just figured out a lot of mysteries in mid-training to close the RL gap betwee ...
机器人顶会RSS 2025奖项公布!
具身智能之心· 2025-06-27 08:36
作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 恭喜获奖者。 RSS(Robotics: Science and Systems,机器人科学与系统会议)是机器人领域顶级学术会议,自 2005 年起每年举办一次,该会议旨在促进机器人领域的科学研究和 技术应用的发展。 今年大会已于 6 月 21 日至 25 日在美国洛杉矶举行。杰出 Demo 论文奖、杰出系统论文奖、杰出学生论文奖、杰出论文奖多个奖项已经公布。 地址:https://roboticsconference.org/program/awards/ 杰出 Demo 论文奖 论文标题:Demonstrating MuJoCo Playground 论文链接:https://www.roboticsproceedings.org/rss21/p020.pdf 论文主页:https://playground.mujoco.org/ 机构:UC 伯克利、Google ...
Meta hires key OpenAI researcher to work on AI reasoning models
TechCrunch· 2025-06-26 16:13
Core Insights - Meta has hired influential OpenAI researcher Trapit Bansal to enhance its AI reasoning models within a new AI superintelligence unit [1][2] - Bansal was instrumental in developing OpenAI's reinforcement learning initiatives and is recognized as a foundational contributor to OpenAI's first AI reasoning model, o1 [2] - The addition of Bansal is expected to significantly boost Meta's AI superintelligence lab, which includes other notable leaders from the tech industry [3] Company Developments - Mark Zuckerberg has been actively recruiting for Meta's AI team, offering substantial compensation packages, reportedly around $100 million, to attract top talent [4] - The specific compensation details for Bansal's move to Meta remain undisclosed [4] - Currently, Meta does not have a publicly available AI reasoning model as part of its Llama family of open models [3]