Workflow
reinforcement learning
icon
Search documents
MiniMax 技术闭门会分享:长上下文是 Agent 的 Game Changer
Founder Park· 2025-07-18 18:24
MiniMax 在 7 月 10 日面向全球举办了 M1 技术研讨会,邀请了 来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、 vLLM、RL领域的研究者及业界嘉宾,就 模型架构创新、RL训练、长上下文应用等领域进行了深入的探讨。 嘉宾阵容很强大,聊的也很深入,Founder Park 授权转载了要点文章。 文章转载自「MiniMax 稀宇科技」。 Founder Park 联合外滩大会组委会、将门创投,征集能真正改变生活的 AI 硬件,寻找 AI 硬件的新可能。 扫码即可报名 01 RL能否赋予模型新能力? RL能否提升模型的基础能力?很多人认为,RL只是在激活模型在预训练阶段就已经学会的一些能力或技巧,不能够让模型从根本上学会 预训练阶段不存在的新技能,例如有些论文说,RL并不能提高模型的pass@k。 首先需要定义模型的基础能力。一个比较实用的定义是,对于给定的上下文长度,模型在一组特定问题上,在无限次尝试下的通过率(pass@k, k→∞)是多少。如果这个通过率等于1,就表示这个模型能解决这类问题。如果通过率等于0,就表示模型解决不了。如果模型的生成长度,即模 ...
只因一个“:”,大模型全军覆没
自动驾驶之心· 2025-07-17 12:08
作者 | 鹭羽 来源 | 量子位 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 明明应该被拦下来的虚假回答,结果LLM通通开绿灯。 该发现来自一篇名叫"一个token就能欺骗LLM"的论文。 一个冒号,竟然让大模型集体翻车? 不仅如此,除了 冒号 、 空格 这类符号,还有诸如此类的推理开头语: "Thought process:" 、 "解" ,也是轻松通过。 好家伙,原来一个"解"字,数学考试能得分,LLM也会被骗到…… 而且这一波是冲着所有通用LLM来的, GPT-4o 、 Claude-4 、 LLaMA3-70B 通通被斩于马下。 那咋办?bug有了,来自 腾讯 AI Lab 、 普林斯顿大学 和 弗吉尼亚大学 的研究人员就开始哼哧哼哧解bug。 用增强数据集训练出一个靠谱的"评委"模型 Master-RM ,被骗概率直接无限接近0,正常评估能力还能不受影响。 具体什么情况,咱且接着往下看。 更多模型咨询,欢迎加入大模型之心Tech技术交流群(添加小助理进群 ...
RL for Autonomous Coding — Aakanksha Chowdhery, Reflection.ai
AI Engineer· 2025-07-16 16:18
[Music] Hi everyone, I'm Akans Shaw. I was at Google for more than six years and I led the research for Palm and I was a lead researcher in Gemini. uh these days I'm working on uh pushing the frontier for autonomous coding uh with reinforcement learning.So just to recap the arc of how we have progressed in large language models and um why autonomous coding and why now. Um so I think everyone here or those of you uh who don't remember in 2020 there was this breakthrough paper that came out which talked about ...
L4产业链跟踪系列第三期-头部Robotaxi公司近况跟踪(技术方向)
2025-07-16 06:13
提予的理解和配合谢谢好的各位投资者大家好我是东吴汽车运营员孙人浩然后也是欢迎大家继续参与我们的第三期的L4产业链的更多会议本次我们邀请到了头部的Robotech的关于算法基础的专家然后来跟我们讨论目前L4在做智能驾驶算法层面是什么样的一个变化以及头部Robotech公司他们的在运营方面的一些部署和进展 对呃在之后我们也会有啊更多的关于呃不是无人物流啊等等各种的专家的交流会议啊也欢迎大家继续关注我们本系列的一个电话会议对呃那个呃会议秘书帮忙接一下专家吧对这样能听到吗嗯可以哎好的你好 呃对我也是跟您先先就几个大的问题先跟您请教一下就是我们先从技术维度出发吧就是我们看到呃比如说我们看到一些公开的一些信息啊像小马一直在强调自己的啊这个世界模型啊强化学习啊以及呃我们比较困惑的就是对于啊自动驾驶L4的公司来说啊我们的底层的这个算法的框架里面是怎样去搭建的啊然后是呃一个之后是一个怎么样的一个演化的思路 你可以先大概帮我们先梳理一下如果你关心小马这边的一个情况的话其实现在的话你可以理解成因为我们出发的比较早我们整个公司创立的时候是在2016年到现在的话就是八九年的时间了其实之前的话肯定不会用现在就是非常先进的一些方法来做这套 ...
最强人才接连被挖,创业大佬离开 OpenAI 后说了实话:7 周硬扛出 Codex,无统一路线、全靠小团队猛冲
AI前线· 2025-07-16 05:08
作者|Calvin French-Owen 译者|核子可乐 策划|冬梅、褚杏娟 近日,据《连线》援引多位知情人消息,OpenAI 研究员 Jason Wei 即将加盟 Meta 新成立的超级智 能实验室。 据 Jason Wei 个人网站信息,他曾参与 OpenAI 的 o3 模型及深度研究模型开发。2023 年加入 OpenAI 前,他曾在谷歌任职,期间专注于思维链研究 —— 这种研究的核心是逐步训练 AI 模型处理 复杂查询。在 OpenAI 工作期间,Wei 曾坦言自己是强化学习的 "忠实拥趸"。强化学习是通过正反馈 或负反馈来训练、优化 AI 模型的技术,如今已成为 AI 研究的热门领域,而 Meta 超级智能团队此前 聘请的多位研究员,恰好都深耕这一方向。 另有消息人士向《连线》杂志透露,OpenAI 的另一位研究员 Hyung Won Chung 也将一同加入 Meta。多位消息人士证实,两人在 OpenAI 内部的 Slack 账户现已停用。目前,OpenAI、Meta 以 及 Wei 和 Chung 本人都未回应《连线》杂志的置评请求。 这些核心研究员的流动,无形中让外界对 OpenAI 的团 ...
倒计时2天,即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-12 13:59
想象⼀下这样的场景:⼀个机器⼈不仅能够理解你的语⾔指令,还能在复杂的现实环境中灵活移动,精 确操作各种物体,甚至在面对突发情况时做出智能决策。这不再是科幻电影中的幻想,⽽是正在快速成 为现实的技术⾰命。从Tesla的Optimus人形机器人到Boston Dynamics的Atlas,从OpenAI的机械手到 Google的RT-X项目,全球顶尖的科技公司都在竞相布局这⼀颠覆性领域。具身智能的核⼼理念在于让 AI系统不仅拥有"大脑",更要拥有能够感知和改变物理世界的"身体"。这种AI不再局限于虚拟的数字空 间,⽽是能够真正理解物理定律、掌握运动技能、适应复杂环境。它们可以在工厂中进行精密装配,在 医院⾥协助手术操作,在家庭中提供贴⼼服务,在危险环境中执⾏救援任务。这种技术的潜在影响力是 革命性的:它将彻底改变制造业、服务业、医疗健康、太空探索等几乎所有行业。 然⽽,要实现真正的具身智能,还⾯临着前所未有的技术挑战。机器人需要在复杂的物理世界中学习和 适应,这要求我们不仅要掌握先进的具身算法,更要深入理解物理仿真、机器⼈控制、感知融合等多个 技术领域。⽽在这个技术栈的核⼼位置,有一个名字正在被越来越多的研究者和 ...
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
Founder Park· 2025-07-11 12:07
「停止研究 RL 吧,研究者更应该将精力投入到产品开发中,真正推动人工智能大规模发展的关键技术是互联网,而不是像 Transformer 这样的模型架 构。」 前 OpenAI 研究员 Kevin Lu 最近更新了一篇博客长文《The Only lmportant Technology ls The Internet》,直指互联网才是推动人工智能进步的核心技术, 是 next-token 预测的完美补充。 Kevin Lu 认为,没有 Transformer 架构,我们可能也会拥有 GPT-4.5 级别的大模型。在 GPT-4 模型以来,基础模型的能力并没有显著的提升,我们可能会 像 2015-2020 年时代的 RL 研究一样,重蹈覆辙,正在进行无关紧要的 RL 研究。 而互联网提供了丰富而海量的数据来源,这些数据具有多样性、能提供自然的学习课程、代表了人们真正关心的能力,并且是一种经济上可行的规模化部 署技术。相比之下,单靠优化模型结构、手工制作数据集或微调算法,都难以带来模型能力质的飞跃。 有趣的是,Kevin Lu 此前在 OpenAI 任职时的主要研究方向之一正是 RL。在推特上,有博主评论道,「当 ...
Grok 4 is really smart... Like REALLY SMART
Matthew Berman· 2025-07-10 22:31
Gro 4 just dropped and yes Elon was right. It is the smartest model in the world at least currently and it is a pretty significant leap from other Frontier models. So first let me walk you through the progression of the Gro series of models.This was a slide from last night's live stream. We can see Grock 2 which by the way was only like 2 years ago and we have it right here. It was just next token prediction.Here's the amount of compute. And with Grock 3, they 10xed their pre-training compute and it was a r ...
奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
机器之心· 2025-07-10 04:26
Core Viewpoint - The article discusses the limitations of current reward modeling methods in reinforcement learning, particularly in the context of large language models (LLMs), and introduces a new paradigm called POLAR that aims to enhance scalability and generalization in reward modeling [2][3][5]. Group 1: Current Reward Modeling Methods - Preference-based Reward Modeling relies on high-quality preference data, which is costly and difficult to scale, and struggles with generalization and susceptibility to reward hacking [3][4]. - Rule-based Verifier methods provide accurate reward signals for verifiable tasks but fail to extend to more general scenarios like open-domain dialogue and complex interactions [3][4]. Group 2: Introduction of POLAR - POLAR, developed by a team from Shanghai AI Lab and Fudan University, utilizes Policy Discriminative Learning to decouple from absolute preferences, allowing for efficient scaling and strong generalization capabilities [5][9]. - The training process of POLAR involves measuring the "distance" between candidate strategies and optimal strategies, providing a relative reward signal that does not depend on human-annotated preferences [9][10]. Group 3: Training Methodology - POLAR's pre-training corpus is constructed through automated data synthesis, sampling from LLM pre-training data and using a large pool of models for trajectory sampling [14][15]. - The pre-training objective employs Bradley-Terry Loss to assign higher rewards to trajectories generated by similar strategies, effectively modeling the differences in strategy distributions [14][15]. Group 4: Performance and Generalization - POLAR demonstrates superior performance in preference evaluation, outperforming state-of-the-art reward models by significant margins in various tasks, including STEM [33]. - In reinforcement fine-tuning (RFT) experiments, models fine-tuned with POLAR show an average improvement of 9.0% over initial results, highlighting its effectiveness in enhancing LLM capabilities [34]. Group 5: Scaling Effects - POLAR exhibits scaling laws similar to LLM Next Token Prediction, indicating that increased computational resources lead to improved reward model performance [35]. - The validation loss decreases in a power-law relationship with the increase in model parameters and training compute, suggesting the potential for building more powerful and generalizable reward models [35]. Conclusion - POLAR represents a novel and scalable approach to reward modeling, offering new possibilities for LLM post-training and addressing the challenges in reinforcement learning [37].
两个华人 AI 分别融了数千万美金:创始人都来自 Meta
投资实习所· 2025-07-09 05:42
华人以及华人背景的 AI 团队,持续在 AI 各领域创造新的价值,最近又有两个华人 AI 产品在早期就拿了不少融资,而且创始人都来自 Meta,并且都是面向企业级 B 端市场。 其中同样做通用 AI Agent 的 Pokee AI 今天宣布完成了 1200 万美金的种子轮融资,由 Point72 Ventures 领投,跟投方包括了高通、三星、 锦秋基金以及 Typeface 创始人 Abhay Parasnis 和 SIG 的吴琼等。 创始人 Bill Zhu 说其融资额度甚至超额认购了 3 倍, 其愿景是让任何人都能轻松、快速、可靠地大规模地实现任何在线工作流程的自动化 。 Bill Zhu 之前是 Meta AI 应用强化学习组负责人,斯坦福大学强化学习博士。Pokee 的做法是,通过将 AI 功能(比方说文本、图像、视 频、PDF 和代码中的内容(文本/图像/视频/音乐/语音)生成和编辑,以及智能搜索、幻灯片创建和智能电子表格分析)直接集成到各种集 成工具和服务中,使用户能够实现工作流程自动化。 这些工具和服务包括了 Google Workspace(搜索、幻灯片、文档、日历、Gmail、云端硬盘、 ...