reinforcement learning

Search documents
RL for Autonomous Coding — Aakanksha Chowdhery, Reflection.ai
AI Engineer· 2025-07-16 16:18
[Music] Hi everyone, I'm Akans Shaw. I was at Google for more than six years and I led the research for Palm and I was a lead researcher in Gemini. uh these days I'm working on uh pushing the frontier for autonomous coding uh with reinforcement learning.So just to recap the arc of how we have progressed in large language models and um why autonomous coding and why now. Um so I think everyone here or those of you uh who don't remember in 2020 there was this breakthrough paper that came out which talked about ...
L4产业链跟踪系列第三期-头部Robotaxi公司近况跟踪(技术方向)
2025-07-16 06:13
提予的理解和配合谢谢好的各位投资者大家好我是东吴汽车运营员孙人浩然后也是欢迎大家继续参与我们的第三期的L4产业链的更多会议本次我们邀请到了头部的Robotech的关于算法基础的专家然后来跟我们讨论目前L4在做智能驾驶算法层面是什么样的一个变化以及头部Robotech公司他们的在运营方面的一些部署和进展 对呃在之后我们也会有啊更多的关于呃不是无人物流啊等等各种的专家的交流会议啊也欢迎大家继续关注我们本系列的一个电话会议对呃那个呃会议秘书帮忙接一下专家吧对这样能听到吗嗯可以哎好的你好 呃对我也是跟您先先就几个大的问题先跟您请教一下就是我们先从技术维度出发吧就是我们看到呃比如说我们看到一些公开的一些信息啊像小马一直在强调自己的啊这个世界模型啊强化学习啊以及呃我们比较困惑的就是对于啊自动驾驶L4的公司来说啊我们的底层的这个算法的框架里面是怎样去搭建的啊然后是呃一个之后是一个怎么样的一个演化的思路 你可以先大概帮我们先梳理一下如果你关心小马这边的一个情况的话其实现在的话你可以理解成因为我们出发的比较早我们整个公司创立的时候是在2016年到现在的话就是八九年的时间了其实之前的话肯定不会用现在就是非常先进的一些方法来做这套 ...
最强人才接连被挖,创业大佬离开 OpenAI 后说了实话:7 周硬扛出 Codex,无统一路线、全靠小团队猛冲
AI前线· 2025-07-16 05:08
作者|Calvin French-Owen 译者|核子可乐 策划|冬梅、褚杏娟 近日,据《连线》援引多位知情人消息,OpenAI 研究员 Jason Wei 即将加盟 Meta 新成立的超级智 能实验室。 据 Jason Wei 个人网站信息,他曾参与 OpenAI 的 o3 模型及深度研究模型开发。2023 年加入 OpenAI 前,他曾在谷歌任职,期间专注于思维链研究 —— 这种研究的核心是逐步训练 AI 模型处理 复杂查询。在 OpenAI 工作期间,Wei 曾坦言自己是强化学习的 "忠实拥趸"。强化学习是通过正反馈 或负反馈来训练、优化 AI 模型的技术,如今已成为 AI 研究的热门领域,而 Meta 超级智能团队此前 聘请的多位研究员,恰好都深耕这一方向。 另有消息人士向《连线》杂志透露,OpenAI 的另一位研究员 Hyung Won Chung 也将一同加入 Meta。多位消息人士证实,两人在 OpenAI 内部的 Slack 账户现已停用。目前,OpenAI、Meta 以 及 Wei 和 Chung 本人都未回应《连线》杂志的置评请求。 这些核心研究员的流动,无形中让外界对 OpenAI 的团 ...
倒计时2天,即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-12 13:59
想象⼀下这样的场景:⼀个机器⼈不仅能够理解你的语⾔指令,还能在复杂的现实环境中灵活移动,精 确操作各种物体,甚至在面对突发情况时做出智能决策。这不再是科幻电影中的幻想,⽽是正在快速成 为现实的技术⾰命。从Tesla的Optimus人形机器人到Boston Dynamics的Atlas,从OpenAI的机械手到 Google的RT-X项目,全球顶尖的科技公司都在竞相布局这⼀颠覆性领域。具身智能的核⼼理念在于让 AI系统不仅拥有"大脑",更要拥有能够感知和改变物理世界的"身体"。这种AI不再局限于虚拟的数字空 间,⽽是能够真正理解物理定律、掌握运动技能、适应复杂环境。它们可以在工厂中进行精密装配,在 医院⾥协助手术操作,在家庭中提供贴⼼服务,在危险环境中执⾏救援任务。这种技术的潜在影响力是 革命性的:它将彻底改变制造业、服务业、医疗健康、太空探索等几乎所有行业。 然⽽,要实现真正的具身智能,还⾯临着前所未有的技术挑战。机器人需要在复杂的物理世界中学习和 适应,这要求我们不仅要掌握先进的具身算法,更要深入理解物理仿真、机器⼈控制、感知融合等多个 技术领域。⽽在这个技术栈的核⼼位置,有一个名字正在被越来越多的研究者和 ...
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
Founder Park· 2025-07-11 12:07
「停止研究 RL 吧,研究者更应该将精力投入到产品开发中,真正推动人工智能大规模发展的关键技术是互联网,而不是像 Transformer 这样的模型架 构。」 前 OpenAI 研究员 Kevin Lu 最近更新了一篇博客长文《The Only lmportant Technology ls The Internet》,直指互联网才是推动人工智能进步的核心技术, 是 next-token 预测的完美补充。 Kevin Lu 认为,没有 Transformer 架构,我们可能也会拥有 GPT-4.5 级别的大模型。在 GPT-4 模型以来,基础模型的能力并没有显著的提升,我们可能会 像 2015-2020 年时代的 RL 研究一样,重蹈覆辙,正在进行无关紧要的 RL 研究。 而互联网提供了丰富而海量的数据来源,这些数据具有多样性、能提供自然的学习课程、代表了人们真正关心的能力,并且是一种经济上可行的规模化部 署技术。相比之下,单靠优化模型结构、手工制作数据集或微调算法,都难以带来模型能力质的飞跃。 有趣的是,Kevin Lu 此前在 OpenAI 任职时的主要研究方向之一正是 RL。在推特上,有博主评论道,「当 ...
Grok 4 is really smart... Like REALLY SMART
Matthew Berman· 2025-07-10 22:31
Gro 4 just dropped and yes Elon was right. It is the smartest model in the world at least currently and it is a pretty significant leap from other Frontier models. So first let me walk you through the progression of the Gro series of models.This was a slide from last night's live stream. We can see Grock 2 which by the way was only like 2 years ago and we have it right here. It was just next token prediction.Here's the amount of compute. And with Grock 3, they 10xed their pre-training compute and it was a r ...
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 04:26
Core Viewpoint - The article discusses the limitations of current reward modeling methods in reinforcement learning, particularly in the context of large language models (LLMs), and introduces a new paradigm called POLAR that aims to enhance scalability and generalization in reward modeling [2][3][5]. Group 1: Current Reward Modeling Methods - Preference-based Reward Modeling relies on high-quality preference data, which is costly and difficult to scale, and struggles with generalization and susceptibility to reward hacking [3][4]. - Rule-based Verifier methods provide accurate reward signals for verifiable tasks but fail to extend to more general scenarios like open-domain dialogue and complex interactions [3][4]. Group 2: Introduction of POLAR - POLAR, developed by a team from Shanghai AI Lab and Fudan University, utilizes Policy Discriminative Learning to decouple from absolute preferences, allowing for efficient scaling and strong generalization capabilities [5][9]. - The training process of POLAR involves measuring the "distance" between candidate strategies and optimal strategies, providing a relative reward signal that does not depend on human-annotated preferences [9][10]. Group 3: Training Methodology - POLAR's pre-training corpus is constructed through automated data synthesis, sampling from LLM pre-training data and using a large pool of models for trajectory sampling [14][15]. - The pre-training objective employs Bradley-Terry Loss to assign higher rewards to trajectories generated by similar strategies, effectively modeling the differences in strategy distributions [14][15]. Group 4: Performance and Generalization - POLAR demonstrates superior performance in preference evaluation, outperforming state-of-the-art reward models by significant margins in various tasks, including STEM [33]. - In reinforcement fine-tuning (RFT) experiments, models fine-tuned with POLAR show an average improvement of 9.0% over initial results, highlighting its effectiveness in enhancing LLM capabilities [34]. Group 5: Scaling Effects - POLAR exhibits scaling laws similar to LLM Next Token Prediction, indicating that increased computational resources lead to improved reward model performance [35]. - The validation loss decreases in a power-law relationship with the increase in model parameters and training compute, suggesting the potential for building more powerful and generalizable reward models [35]. Conclusion - POLAR represents a novel and scalable approach to reward modeling, offering new possibilities for LLM post-training and addressing the challenges in reinforcement learning [37].
两个华人 AI 分别融了数千万美金:创始人都来自 Meta
投资实习所· 2025-07-09 05:42
华人以及华人背景的 AI 团队,持续在 AI 各领域创造新的价值,最近又有两个华人 AI 产品在早期就拿了不少融资,而且创始人都来自 Meta,并且都是面向企业级 B 端市场。 其中同样做通用 AI Agent 的 Pokee AI 今天宣布完成了 1200 万美金的种子轮融资,由 Point72 Ventures 领投,跟投方包括了高通、三星、 锦秋基金以及 Typeface 创始人 Abhay Parasnis 和 SIG 的吴琼等。 创始人 Bill Zhu 说其融资额度甚至超额认购了 3 倍, 其愿景是让任何人都能轻松、快速、可靠地大规模地实现任何在线工作流程的自动化 。 Bill Zhu 之前是 Meta AI 应用强化学习组负责人,斯坦福大学强化学习博士。Pokee 的做法是,通过将 AI 功能(比方说文本、图像、视 频、PDF 和代码中的内容(文本/图像/视频/音乐/语音)生成和编辑,以及智能搜索、幻灯片创建和智能电子表格分析)直接集成到各种集 成工具和服务中,使用户能够实现工作流程自动化。 这些工具和服务包括了 Google Workspace(搜索、幻灯片、文档、日历、Gmail、云端硬盘、 ...
DeepSeek 复盘:128 天后 ,为何迟迟推迟发布——SemiAnalysis
2025-07-07 15:45
Juy , 2025 DeepSeek Debrief: 128 Days Later //Traffic and User Zombification, GPU Rich Western Neocouds, Token Economics Tokenomics) Sets the Competitive Landscape minutes No comments By , and Wei Zhou AJ Kourabi Dyan Pate SemiAnaysis is hiring an anayst in New York City for Core Research, our word cass research product for the finance industry. Pease appy here t's been a bit over 150 days since the aunch of the Chinese LLM DeepSeek R1 shook stock markets and the Western A word. R1 was the first mode to be ...
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 09:20
在近20年AI发展的路线上,我们正站在⼀个前所未有的转折点。从早期的符号推理到深度学习的突破,再 到如今⼤语⾔模型的惊艳表现, AI 技术的每⼀次⻜跃都在重新定义着⼈类与机器的关系。⽽如今,具身智 能正在全面崛起。 MuJoCo ( Multi-Joint dynamics with Contact )不仅仅是⼀个物理仿真引擎,它更是连接虚拟世界与现实世 界的重要桥梁。在具身智能的技术⽣态中, MuJoCo 扮演着⾄关重要的⻆⾊,它为机器⼈学习提供了⼀个 ⾼保真、⾼效率的训练环境。 当我们谈论机器⼈学习时,⼀个核⼼问题是:如何让机器⼈在不损坏昂贵硬件的情况下,快速掌握复杂的 运动技能?传统的⽅法是在真实机器⼈上进⾏⼤量试错,但这种⽅式不仅成本⾼昂,⽽且效率低下,甚⾄ 可能存在安全⻛险。MuJoCo的出现彻底改变了这⼀现状。 通过 MuJoCo ,研究者可以构建⾼度逼真的虚拟机器⼈和环境,让 AI 系统在仿真中进⾏数百万次的试验 和学习。这种⽅法的优势是显⽽易⻅的:⾸先,仿真速度可以⽐现实时间快数百倍,⼤⼤加速了学习 过 程;其次,在虚拟环境中,机器⼈可以尝试各种极端情况⽽不⽤担⼼硬件损坏;最重要的是,通过精⼼ ...