Workflow
DAPO算法
icon
Search documents
张亚勤|未来,每个人、每个设备都将拥有智能体
Xin Lang Cai Jing· 2025-12-26 01:56
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 来源:全球化智库CCG 2025年11月18-20日,以"青年之智,解码未来"为主题的2025全球青年领袖年度对话会在北京成功举 办。本届对话会由全球化智库(CCG)主办、"国际青年领袖对话(GYLD)"项目秘书处协办,并得到 北京市海淀区人才工作局和海淀区人民政府外事办公室支持。清华大学智能科学讲席教授、智能产业研 究院院长张亚勤出席11月19日的开幕式,并发表题为《拥抱人工智能新浪潮:人工智能向善》 的主旨 演讲。 Themed "Decoding the Future with Young Minds," the Global Young Leaders Dialogue Annual Forum 2025 was successfully held in Beijing from November 18 to 20. The event was hosted by the Center for China and Globalization (CCG), co-organized by the Secretariat of th ...
01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员
量子位· 2025-03-20 10:56
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 一个超越DeepSeek GRPO的关键RL算法 出现了! 用上该算法后,Qwen2.5-32B模型只经过RL训练,不引入蒸馏等其他技术,在AIME 2024基准上拿下50分,优于相同setting下使用GRPO 算法的DeepSeek-R1-Zero-Qwen,且DAPO使用的训练步数还减少了50%。 这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现 已开源 。 论文通讯作者和开源项目负责人都是一个叫Qiying Yu的人 。 我们还从知情人士处得知了禹棋赢的另一重身份—— 在字节大模型团队内部负责打造"能力显著提升的下一代语言模型"的攻坚小组中,禹棋赢是唯一的实习生。 虽然是实习生,但在这个大神云集的小组里, 禹棋赢被委以重任,直接负责RL方向的研究 。 凭什么? 事情要从去年夏天说起。 去年10月,他在字节第一个跑出aha moment 去年5月,字节启动「Top Seed人才计划」,最终录取多名应届和在读博士组成史无前例的AI研究团队,禹棋赢就在其中。 为期2个月的warm up landing (类似可自由探索的适应期) 后 ...