强化学习

Search documents
Kimi新模型数学反超DeepSeek!北大校友刘征瀛等领衔
量子位· 2025-07-11 07:20
白交 发自 凹非寺 量子位 | 公众号 QbitAI Kimi新模型数学超越DeepSeek了! 在定理证明这块,即便模型参数72B也能超越DeepSeek-Prover-V2的671B版本,实现SOTA。 这一新模型来自Numina组织和Kimi团队联合打造,前者曾在AI-MO竞赛中荣获进步一等奖,陶哲轩亲自为他们颁奖。 有意思的是,这俩AGI团队不是第一次交手。 两个月前DeepSeek刚发布了DeepSeek-Prover V2版本,然后直接在普特南测试上将记录刷新到 49道 。 当时第一名正好是Kimina-Prover,而它只能做出10道题。 | | | | # | Model | num- solved | | | --- | --- | --- | --- | | | | | compute | | 1 | Kimina-Prover-7B-Distilly | 10 | pass@192 | | 2 | Self-play Theorem Prover® | 8 | pass@3200 | | 3 | Goedel-Prover-SFT | 7 | pass@512 | | 4 | ABEL ...
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
自动驾驶之心· 2025-07-11 06:46
论文链接:https://arxiv.org/pdf/2506.24044 项目链接:https://github.com/JohnsonJiang1996/Awesome-VLA4AD Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends.2025 论文链接:https://arxiv.org/pdf/2506.20966 项目链接:https://github.com/AoqunJin/Awesome-VLA-Post-Training 今天为大家整理了几十篇具身相关的综述,设计数据集、评测、VLA、VLN、强化学习、基础模 型、DP等方向,为大家一览具身发展的路线, 内容出自具身智能之心知识星球。 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective.2025 论文链接:https://arxiv.org/pdf/2507.01925 A Survey on ...
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 04:00
允中 发自 凹非寺 量子位 | 公众号 QbitAI 强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。 然而,其中 奖励模型 的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。 当前,大模型在 Next Token Prediction 和 Test-time Scaling 两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃 升。但相比之下,奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升,成为阻碍强化学习链路进一步扩展的 短板。 如何解决? 现在,来自上海人工智能实验室的研究团队提出了一种新的思路: 回答三: 彩虹是阳光通过空气中的水滴折射和反射后形成的。生活中我们经常在雨后或喷泉、水幕附近看到彩虹,有时候还会看到双彩虹甚至三重彩 虹呢!不过很可惜,彩虹本身只是光学现象,没法真正走近摸到。 对于这种开放问题,不同的用户可能会偏向不同风格的回复。此时,传统奖励模型的"绝对偏好"无法灵活应对不同的定制化场景。 而POLAR 只需要根据不同的参考回复,即可为三种回答给出不同的偏序关系,无需重新训练奖励模型 。 他们找到 ...
从Grok-4看AI产业发展
2025-07-11 01:05
从 Grok-4 看 AI 产业发展 20250710 摘要 GROX4 在推理能力上实现显著提升,在 Humans Last Examination (HLE)测试中得分达到 50 分,远超 OpenAI 的 23 分,并在美国奥林匹 克数学竞赛中取得优异成绩,显示其强大的推理能力。 GROX4 通过稀疏激活策略优化参数,减少了 40%的参数量,同时提高 了推理效率。相比 GROX3,GROX4 仅使用 1.7 万亿 TOKEN,性能却 显著提升,降低了计算成本。 GROX4 引入多模态融合,整合音频、图像、实时搜索和工具调用,增 强了模型处理复杂任务的能力,并支持实时上网功能,扩展了应用场景。 GROX4 的 API 定价较高,输入每百万 TOKEN 收费 3 美元,输出每百 万 TOKEN 收费 15 美元,是 O3 的一倍价格,反映了其性能提升带来的 成本增加。 GPT-5 预计在 7 月底至 9 月份发布,重点在于多模态深度整合,包括文 生图、文生视频和音频交互能力,并增强 agent 功能,以提升产品体验。 Grok 创新模式将 agent 调用放入预训练中,通过多个 agent 协作完成 任务, ...
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 00:57
今天为大家整理了几十篇具身相关的综述,设计数据集、评测、VLA、VLN、强化学习、基础模 型、DP等方向,为大家一览具身发展的路线, 内容出自具身智能之心知识星球。 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective.2025 论文链接:https://arxiv.org/pdf/2507.01925 A Survey on Vision-Language-Action Models for Autonomous Driving.2025 论文链接:https://arxiv.org/pdf/2506.24044 Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes.2025 论文链接:https://www.arxiv.org/abs/2408.03539 A Survey on Diffusion Policy for Robotic Manipulation: Taxonomy, Analysis, and ...
2025上半年,AI Agent领域有什么变化和机会?
Hu Xiu· 2025-07-11 00:11
Core Insights - The rapid development of AI Agents has ignited a trend of "everything can be an Agent," particularly evident in the competitive landscape of model development and application [1][2][10] - Major companies like OpenAI, Google, and Alibaba are heavily investing in the Agent space, with new products emerging that enhance user interaction and decision-making capabilities [2][7][8] - The evolution of AI applications is categorized into three phases: prompt-based interactions, workflow-based systems, and the current phase of AI Agents, which emphasize autonomous decision-making and tool usage [17][19] Group 1: Model Development - The AI sector has entered a "arms race" for model development, with significant advancements marked by the release of models like DeepSeek, o3 Pro, and Gemini 2.5 Pro [5][6][14] - The introduction of DeepSeek has demonstrated that there is no significant gap between domestic and international model technologies, prompting major players to accelerate their model strategies [6][10] - The focus has shifted from "pre-training" to "post-training" methods, utilizing reinforcement learning to enhance model performance even with limited labeled data [11][13] Group 2: Application Development - The launch of OpenAI's Operator and Deep Research has marked 2025 as the "Year of AI Agents," with a surge in applications that leverage these capabilities [7][8] - Companies are exploring various applications of AI Agents, with notable examples including Cursor and Windsurf, which have validated product-market fit in the programming domain [9][21] - The ability of Agents to use tools effectively has been a significant breakthrough, allowing for enhanced information retrieval and interaction with external systems [20][21] Group 3: Challenges and Opportunities - Despite advancements, AI Agents face challenges such as context management, memory mechanisms, and interaction with complex software systems [39][40] - The future of Agent applications may involve evolving business models, potentially shifting from subscription-based to usage-based or outcome-based payment structures [40][41] - The industry is witnessing a competitive landscape where vertical-specific Agents may offer more value due to their specialized knowledge and closer user relationships [42][46]
双非同学竟然是这样发第一篇CVPR的!
具身智能之心· 2025-07-10 13:16
去年有一个双非的同学找到我们,情况是:老师没有人带,但自己想申请博士,想咨询有没有快速发表论文的 渠道。在分析这位同学的基础和硬件资源后,我们为他快速制定了一个研究方向,并匹配到了相关的老师!经 过近10个月的沟通、实验、写作,最终成功投出到了CVPR25,并被录取。成为学院首个发CVPR的硕士研究 生。 SCI一区~四区; 中科院1区,2区,3区,4区; 谈到这个,归咎于2点。没人指导不可怕,可怕的是自己不行动,主动出击才有胜算。如果当时没有主动找老 师辅导,也许CVPR对他来说只是一个梦。还有就是同学性格很主动、肯吃苦,经常分析到凌晨。遇到问题不 逃避,敢于直面! EI/中文核心; 毕设论文/申博/比赛等; 如果你缺乏指导、身边没有老师带着科研,欢迎联系具身智能之心!我们提供从idea->实验->写作->投稿一站 式服务。 辅导方向:大模型、VLA、视觉语言导航、端到端、强化学习、Diffusion Policy、sim2real、具身交互、抓取 点预测与位姿估计、机器人决策规划、运动规划、3DGS、SLAM、触觉感知、双足/四足机器人、遥控操作、 零样本学习等方向,如果您有任意论文发表需求,支持带课题/ ...
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 12:40
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 端到端自动驾驶 - 下一代智能驾驶量产核心算法 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。自UniAD获得 CVPR Best Paper以来,正式拉开了国内新一轮的智驾军备竞赛。 2024年理想汽车更是宣布E2E+VLM的双系统架构量产! 端到端自动驾驶通过传感器数据输入 (视觉/Lidar等)直接输出自车规划或控制信息,是目前智能驾驶最具代表性的方向。 目前VLM/VLA也是招聘的刚需,3-5年就能冲击百万年薪! 而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗?显然不是!一系列算法如雨后春笋般冒出: 技术栈多?入门困难? 去年我们推出了《首个面向工业级的端到端算法与实战教程》,今年很多小伙伴反馈技术发展太快了,先前的技术方案已经不适合当下的大环境。端到端目前发 展出多个领域技术的方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Trans ...
有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位!
具身智能之心· 2025-07-10 03:36
最近和几家公司对接了下,有一些大模型、强化学习、导航相关的职位需求,这里也和大家分享 下。职位比较靠谱,是具身领域的独角兽公司,资金充裕,感兴趣的同学可以底部扫码了解更多。 1)多模态大模型 base:北京、深圳 薪资:40k-80k/月 2.具有机器人感知/导航/操作、AI大语言模型/多模态大模型等领域丰富的从业经验; 3.了解具身智能领域前沿的VLM/VLN/VLA多模态模型算法,对于比较有挑战性的实际问题有自己的 判断和分析解决能力; 4.具有NaVid/MobilityVLA等将多模态大模型技术应用于机器人导航领域的算法研发及落地经验者优 先; 5.扎实的前沿算法研发与高效的工程实现能力,具备技术快速落地的能力; 方向:移动操作、导航、VLA等; 职位描述: 1.从事具身智能多模态大模型前沿算法研发,应用于室内外多个场景的移动操作平台。包括但不限于 具身智能大模型的框架设计、模型优化、面向导航和操作等下游任务的训练和部署等; 2.探索并推动大语言模型和多模态大模型在机器人领域的技术和Demo。 职位要求: 1.计算机科学、人工智能、机器人、控制工程等相关专业硕士及以上学历; 6.具有良好的团队合作能力 ...
晚点独家丨Agent 初创公司 Pokee.ai 种子轮融资 1200 万美元,Point 72 创投,英特尔陈立武等投资
晚点LatePost· 2025-07-09 11:38
以下文章来源于晚点科技 ,作者晚点团队 晚点科技 . 晚一点,好一点 今年 4 月,《晚点 LatePost》曾访谈 AI Agent 创业公司 Pokee.ai 创始人朱哲清, 他分享了强 化学习如何用于构造 Agent 。 我们了解到,Pokee.ai 近期完成种子轮融资,募资额约 1200 万美元。投资人包括对冲基金 Point72 旗下风险投资机构 Point72 Ventures、芯片公司高通的风投部门 Qualcomm Ventures, 以及英特尔 CEO 陈立武、前 Adobe CTO Abhay Parasnis 和前 Tinder CTO Maria Zhang。 Pokee.ai 去年 10 月成立,最近也只有 7 名员工。创始人朱哲清告诉我们,完成融资后 Pokee.ai 不计划大规模扩招,短期内研发员工数量不会超过 10 人。资金将用于扩张其 Agent 产品 Pokee 的可选工具集、加快对大公司客户销售。 创立 Pokee.ai 之前,朱哲清曾任 Meta "应用强化学习" 部门负责人,用强化学习算法改善内容推荐系 统,把上任前只剩 3 人,一度要关停的部门扩张至 10 余人,为 ...