Workflow
强化学习
icon
Search documents
快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
智通财经网· 2025-04-24 04:52
快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化 (two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领 域复现 DeepSeek-R1-Zero 性能的方法。通过使用与 DeepSeek 相同的基础模型 (Qwen2.5-32B) 和纯粹的 强化学习训练,SRPO 成功在 AIME24 和 LiveCodeBench 基准测试中取得了优异成绩(AIME24 = 50、 LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。 技术报告中,快手Kwaipilot团队实现了一种两阶段训练范式,有效解决数学和代码之间内在的响应长度 冲突问题。实验表明,两阶段训练在数学和编程 ...
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 03:03
编译 | Tina 很多人都觉得 2025 年会是"AI 智能体元年",也就是基于 OpenAI、Anthropic、Google 和 DeepSeek 等机构提供的大语言模型,打造专注特定任务的智能体系统。 但是,最近在社交平台 X 上有个调查显示,现在大部分 Agent 都在"玩票"阶段,还没真正走出实验 室,普遍滞留在"企业试点"的状态中。 | Al agents in the enterprise right now are ... | | | --- | --- | | Smarter than the hype | 6.4% | | Stuck in pilot purgatory | 64.2% | | Powerful, but high effort O | 24.8% | | Nearing real scale | 4.6% | 不过,李飞飞所在的一支团队或许即将带来改变:他们与西北大学、微软、斯坦福大学和华盛顿大学 的研究人员合作,最近推出了一套名为 RAGEN 的新系统。这个系统旨在提升人工智能在真实世 界,尤其是在企业应用中的稳定性和可靠性。 据悉,该项目由前 DeepSeek 研 ...
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 03:03
很多人都觉得 2025 年会是"AI 智能体元年",也就是基于 OpenAI、Anthropic、Google 和 DeepSeek 等机构提供的大语言模型,打造专注特定任务的智能体系统。 但是,最近在社交平台 X 上有个调查显示,现在大部分 Agent 都在"玩票"阶段,还没真正走出实验 室,普遍滞留在"企业试点"的状态中。 编译 | Tina 推理智能体训练框架已开源 与解题或代码生成等静态任务不同,RAGEN 聚焦在多轮交互场景中训练智能体,要求它们能在不确 定性中进行推理、记忆历史对话并灵活应对变化。 | Al agents in the enterprise right now are ... | | | --- | --- | | Smarter than the hype | 6.4% | | Stuck in pilot purgatory | 64.2% | | Powerful, but high effort O | 24.8% | | Nearing real scale | 4.6% | 不过,李飞飞所在的一支团队或许即将带来改变:他们与西北大学、微软、斯坦福大学和华盛顿大学 的研究 ...
京东指竞对“二选一”,美团称其造谣引流;“请”“谢谢”让OpenAI增加千万美元开销;关税让百事可乐更难做了丨百亿美元公司动向
晚点LatePost· 2025-04-22 15:58
关税让百事可乐更难做了。 可乐的生产依赖浓缩液、水、甜味剂。为了交更少的税,百事可乐从 50 多年前开始在企业税率更 低的爱尔兰生产浓缩液——几乎所有在美国销售的百事可乐浓缩液都来自爱尔兰,现在百事要为此 缴纳 10% 的进口关税。可口可乐也在爱尔兰生产浓缩液,但其在美国本土销售的汽水,大部分浓 缩液来自美国亚特兰大以及领土波多黎各,这也意味着可口可乐受关税影响更少。 两家企业还受到美国对进口铝征收 25% 关税的影响。可口可乐 CEO 詹姆斯·昆西 (James Quincey) 此前表示,可口可乐从加拿大进口了一些铝,关税可能会导致可乐价格上涨,公司可通过增加塑料 瓶装饮料或从美国采购铝来缓解。 OpenAI 的最强模型幻觉更严重。 OpenAI 上周发布 o3、o4-mini 两款推理模型,凭借图像推理等能力引发关注。OpenAI 最早介绍 o3 的时候,还特意强调其在高难度编程能力测试中达到 Top 200 人类程序员的水平。但许多使用者发 现,这两款模型幻觉更严重。他们决定继续使用 o1 Pro 或 Gemini 2.5 等模型。 非营利机构 Transluce 测试发现,o3 经常会幻想自己用了某 ...
Agent、DeepSeek、多模态热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
AI科技大本营· 2025-04-21 10:24
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 作者 | 《新程序员》编辑部 出品 | CSDN(ID:CSDNnews) 在万物向 "智 " 生长的 2025 年,AI 领域的热潮持续升温,正引领着技术革新与产业探索的新浪潮。 了新的破解思路?围绕这些关键问题,欢迎回看大会首日视频,看众多技术大咖如何从理论、算法到实际应用层面进行了深度剖析 ,以此 了解 AI 技术 的更多最新进展: 大模型技术创新驱动的 AI 生态和应用演进 李建忠 CSDN 高级副总裁、 Boolan 首席技术专家 4 月 18-19 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025),在上海虹桥西郊庄园丽笙 大酒店隆重拉开帷幕。本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业 实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 在生成式 AI 重构技术边界的浪潮下,产业实 ...
OpenAI科学家姚顺雨:o3发布、RL迎来新范式,AI正式进入下半场
Founder Park· 2025-04-17 12:12
有评论称这篇文章是 「 Bitter Lesson」级别的存在,或许是因为和 「 Bitter Lesson」类似,这篇文章也试图从 high level 指出 AI 研究中一种思维范 式的彻底改变。 「 Bitter Lesson 」启发了大家从 「 人类指导 AI」转向算力和数据的 scaling,而 The Second Half 告诉大家 在 RL 全面到来时,我 们应该彻底重新思考问题定义和真实用例的 evaluation。 姚顺雨本科毕业于清华姚班,是姚班联席会主席,2024 年从 Princeton 博士毕业后加入 OpenAI 担任 Research Scientist,参与了 OpenAI 的 Computer-Using Agent,Deep Research 等多个产品项目。他是 Agent 领域的最前沿探索者,这个领域不少最重要的 framework 和 benchmark 都来自 他 Phd 期间的工作:ReAct、Tree of Thought、SWE_Bench。 这篇博客主要内容来自姚顺雨在 CS 224N 和 Columbia 大学所做的演讲。 Founder Park 正在 ...
谷歌高管入职两个月,字节AI开始扁平化?
以下文章来源于AI科技评论 ,作者梁丙鉴 AI科技评论 . 字节 AI Lab 是 Seed 成立之前字节主要的 AI 探索部门,目前由李航管理,自2024年开始向 Seed 时 任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字节,成为 Seed 基础 研究负责人。此后李航的汇报对象变为吴永辉。 字节 AI Lab 成立于2016年,最初由微软亚洲研究院前常务副院长马维英负责,直接向张一鸣汇 报。AI lab 目前有多个子团队,包括机器人、AI4S 等方向,几乎覆盖人工智能领域所有前沿技术研 究。2018年其团队规模达到150人,为字节跳动AI研究的核心部门。 AI Lab 主要研究重点是开发为字节跳动内容平台服务的创新技术,曾参与字节手势识别、短视频特 效等功能开发。其研究成果应用于今日头条、抖音等产品,是支持抖音成长为国民级应用的基石, 并奠定了当时字节在国内AI领域的领先地位。 随着抖音、TikTok 占据绝对优势的市场地位,流量商业化成为字节面临的 Top 级问题,AI Lab 在 字节内部重要性下降。2020年,AI Lab 从集团级前瞻性项目转为技术中台,为 ...
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:02
吴翼: RL 是机器学习这个大概念下一类比较特殊的问题。 曲凯: 今天我们请来了国内强化学习 (RL) 领域的专家吴翼,吴翼目前是清华大学交叉信息研究院 助理教授,他曾经在 OpenAI 工作过,算是国内最早研究强化学习的人之一,我们今天就争取一 起把 RL 这个话题给大家聊透。 首先吴翼能不能简单解释一下,到底什么是 RL? 传统机器学习的本质是记住大量标注过正确答案的数据对。 举个例子,如果你想让机器学习能分辨一张图片是猫还是狗,就要先收集 10000 张猫的照片和 10000 张狗的照片,并且给每一张都做好标注,让模型背下来。 上一波人工智能四小龙的浪潮其实都以这套框架为基础,主要应用就是人脸识别、指纹识别、图 像识别等分类问题。 这类问题有两个特点,一是单一步骤,比如只要完成图片分辨就结束了;二是有明确的标准答 案。 但 RL 很不一样。 RL 最早是用来打游戏的,而游戏的特点和分类问题有两大区别。 第一,游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏,发球、接球、回 球,每一个动作都是非标的,而且不同的选择会直接影响最终的结果。 第二,赢得一场游戏的方式可能有上万种,并没有唯一的标准答 ...
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01AI Processing
曲凯: 今天我们请来了国内强化学习 (RL) 领域的专家吴翼,吴翼目前是清华大学交叉信息研究院助理教 授,他曾经在 OpenAI 工作过,算是国内最早研究强化学习的人之一,我们今天就争取一起把 RL 这个话题 给大家聊透。 举个例子,如果你想让机器学习能分辨一张图片是猫还是狗,就要先收集 10000 张猫的照片和 10000 张狗 的照片,并且给每一张都做好标注,让模型背下来。 首先吴翼能不能简单解释一下,到底什么是 RL? 上一波人工智能四小龙的浪潮其实都以这套框架为基础,主要应用就是人脸识别、指纹识别、图像识别等 分类问题。 吴翼: RL 是机器学习这个大概念下一类比较特殊的问题。 传统机器学习的本质是记住大量标注过正确答案的数据对。 所以我觉得人生有一个很好玩的地方是,你需要花很多时间先探索自己的奖励函数是什么,很多人可能努 力了很长时间,最后却发现找错了奖励函数。 这类问题有两个特点,一是单一步骤,比如只要完成图片分辨就结束了;二是有明确的标准答案。 但 RL 很不一样。 RL 最早是用来打游戏的,而游戏的特点和分类问题有两大区别。 第一,游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏, ...
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01
曲凯: 今天我们请来了国内强化学习 (RL) 领域的专家吴翼,吴翼目前是清华大学交叉信息研究院助理教授,他曾经在 OpenAI 工作过,算是国内最早研究强化学 习的人之一,我们今天就争取一起把 RL 这个话题给大家聊透。 首先吴翼能不能简单解释一下,到底什么是 RL? 因此,RL 其实更通用一些,它的逻辑和我们在真实生活中解决问题的逻辑非常接近。比如我要去美国出差,只要最后能顺利往返,中间怎么去机场、选什么航 司、具体坐哪个航班都是开放的。 但 RL 很不一样。 RL 最早是用来打游戏的,而游戏的特点和分类问题有两大区别。 第一,游戏过程中有非常多的动作和决策。比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结 果。 第二,赢得一场游戏的方式可能有上万种,并没有唯一的标准答案。 所以 RL 是一套用于解决多步决策问题的算法框架。它要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评 判它最终做得好还是不好。 吴翼: RL 是机器学习这个大概念下一类比较特殊的问题。 传统机器学习的本质是记住大量标注过正确答案的数据对。 ...