Workflow
强化学习
icon
Search documents
蚂蚁清华联手放大招!彻底开源RL框架AReaL-boba,人人可复现QwQ
AI科技大本营· 2025-04-03 02:16
责编 |梦依丹 出品丨AI 科技大本营(ID:rgznai100) 3 月的最后一天,由蚂蚁与清华大学交叉信息研究院吴翼老师团队联合推出的开源强化学习框架 AReaL 发布了里程碑版本——AReaL boba,正如其 昵称"boba"(珍珠奶茶)所寓意的那样,AReaL 团队希望他们的工作能像美味且平易近人的奶茶一样,普惠整个 AI 开发社区,让每一位开发者都能 轻松驾驭强大的推理模型。 就像 AReaL 介绍里说的那番,他们将 完全致力于开源,发布所有重现所需性能模型的训练细节、数据和基础设施。 AReaL boba 不仅把模型、代 码、数据及实现细节通通开放出来,而且还提供非常详细的教程, 真正实现了"人人可手搓顶尖大模型"的愿景。 集成 SGLang 框架,效率大幅提升! AReaL boba 是首个全面拥抱 xAI 公司高性能推理框架 SGLang 的开源训练系统。 通过引入 SGLang 并进行一系列工程优化,AReaL v0.2 在 7B 模型 上的训练速度相较于 v0.1 提升了 1.5 倍,端到端训练性能提升高达 73%。如下图所示: 官网提供的表格进一步展示了 AReaL-boba 在不同资 ...
智元机器人首席科学家罗剑岚:如果机器人实现“操控”,是比大语言模型更高级的智能
Mei Ri Jing Ji Xin Wen· 2025-04-02 07:35
每经记者 朱成祥 每经编辑 魏官红 4月2日,智元机器人宣布与国际顶尖具身智能公司Physical Intelligence(Pi)达成合作伙伴关系,双方 将围绕动态环境下的长周期复杂任务,在具身智能领域展开深度技术合作。此外,近期正式加入智元的 罗剑岚,将全面领导智元具身智能研究中心,同时推进双方的深度合作。4月2日,罗剑岚接受了《每日 经济新闻》记者的采访。 罗剑岚认为:"强化学习是我们比较看重的一个技术,此外我们也看到DeepSeek R1所展现出的比较强的 推理能力。但光有模仿学习是不够的,后来我们还会有世界模型。根据我们云端的Model(模型),去 预测下一步环境会发生什么。不过这些都是工具,真正本质上需要解决的,是怎样在开放数据链构建 (具有)鲁棒的策略,然后感知、预测、行为生成这一整套机制的泛化能力,才是最核心、最关键 的。" 值得一提的是,汽车智能驾驶是收集到众多车辆的数据后,才慢慢发展起来的。当下人形机器人尚未大 规模应用于生活场景。如果缺乏足够的数据,人形机器人的"操控"该如何突破? 罗剑岚表示:"我也经常在想,这是一个循环。我们没有机器人部署到真实世界,它就不会产生数据; 机器人的能力没 ...
AI 写码一时爽,代码审查火葬场?GitHub Copilot 副总揭秘新瓶颈 | GTC 2025
AI科技大本营· 2025-03-31 06:55
我们距离 AI 在绝大多数软件开发任务中实现人类水平的能力和自主性大约还有 24 到 36 个月的时间。 责编 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 主持人: 大家好,我是 NVIDIA 开发者工具 AI 技术软件工程总监,马特·弗雷泽(Matt Frazier)。 众所周知,AI 辅助开发者工具,或者说代码生成、AI 代码生成——现在有很多叫法——正在从根本上改变我们开发软件的方式。NVIDIA 自然非常关 注这一趋势如何影响我们处理软件和加速计算的方法。 为此,在 GTC 2025(英伟达大会)上,我们邀请了来自多家公司和不同行业的 AI 代码生成通用应用专家,以及 CUDA 优化与相关研究领域的专家, 共同探讨这个话题。 我想快速问各位读者几个问题: 如果你对以上任何一个问题感同身受或感到好奇,那么接下来的讨论就值得你关注。下面,我想介绍一下参与本次讨论的嘉宾。 莎娜·达马尼(Sana Damani) ,她是 NVIDIA 架构研究组的研究科学家,致力于提升 GPU 上并行应用程序的性能,以及提高调试和优化工作的易用 性。 有多少人特别在 CUDA 调试中使用过 AI 驱动的代 ...
中关村论坛周末机器人“总动员”!机器人ETF基金(562360)连续3个交易日获得资金净流入,午后V型大反弹
Xin Lang Cai Jing· 2025-03-31 06:50
国金证券表示,机器人板块的投资价值在于其背后强大的产业趋势和技术革新。随着人工智能、机器学 习等技术的发展,机器人行业正经历着前所未有的变革,尤其是在人形机器人领域。例如,Figure公司 利用强化学习技术实现了人形机器人的高效训练,不仅缩短了开发周期,还提高了机器人的运动能力和 智能化水平。此外,vivo等消费电子巨头的加入,标志着机器人技术正逐渐渗透到日常生活中,预示着 未来市场的巨大潜力。 相关产品:机器人ETF基金(562360) 消息面上,3月27日-3月31日举办的2025中关村论坛年会现场,各式各样的机器人穿梭其间,上演着一 场现实版的 "机器人总动员"。它们有的化身咖啡师制作拉花,有的在舞台上演绎机械太极,有的用流 畅的双语引导外宾。 2025年3月31日,A股市场深V反弹,机器人板块午后临近收盘跳升。机器人指数成份股中,信捷电气、 华辰装备涨超4%,快克智能、科远智慧、燕麦科技、三丰智能涨超1%,其余成份股趋势上行。机器人 ETF基金(562360)实时成交额突破3700万元。 机器人ETF基金(562360)跟踪的中证机器人指数与万得人形机器人指数的成份股重合度为63%,除了 人形机器人以 ...
从实验室到烟火人间:科技落地的美学故事
Group 1 - The 2025 Zhongguancun Forum showcased advanced robotics and AI technologies, emphasizing the integration of technology and art through performances [3][4][8] - The performance involved a team of engineers and robots, particularly the "Kua Fu" robot, which demonstrated complex movements requiring precise dynamic balance and control [4][6][8] - Collaboration between companies like Beijing General Artificial Intelligence Research Institute and Leju Robotics led to significant advancements in multi-robot coordination and dynamic balance control [7][8] Group 2 - The AI simultaneous interpretation service provided by Huoshan Doubao demonstrated high translation quality and low latency, enhancing communication during the forum [11][16] - The bionic interactive robot "Niya" showcased advanced human-like interactions, significantly improving user experience and engagement at the event [13][16] - The collaboration between different tech companies, such as Good Drink Technology and Galaxy General, highlighted the potential for cross-industry partnerships to enhance service delivery [14][16] Group 3 - The forum served as a platform for testing and showcasing innovative technologies, with a focus on practical applications in real-world scenarios [15][16] - Future plans for robotics and AI development include enhancing movement capabilities, improving translation accuracy, and fostering continuous innovation in technology [15][16] - The event illustrated the evolving role of technology from mere tools to partners in human interaction, reflecting a shift towards more integrated and empathetic technological solutions [17][18][19]
与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need
晚点LatePost· 2025-03-28 12:12
" 两 瓶 茅 台 的 价 格 体 验 未 来,太 划 算 了 。 " 嘉宾 丨 戴雨森 整理 丨 刘倩 程曼祺 本期播客,是《晚点聊》与真格基金管理合伙人戴雨森长聊 AI Agent 和 AI 趋势。 3 月 6 日,真格投资的 Monica 发布的 Agent 产品 Manus,虽然还在内测阶段,就引起了大量关注。 在期中,雨森提到了 Monica 即将会发布一款 Agent 产品,那时候我们还不知道 Manus 将会席卷社交 媒体。 当我们把一个任务交给 Manus,过了十几分钟收到完成的结果时 ,似乎真的感受到了一点 Attention is not all you need 的未来。 带来 Agent 等 AI 行业新变化的起点,是去年至今的两个重要节点:o1 和 R1。 戴雨森详细分享了他对 Agent 机会的当前观察,以及在 DeepSeek 带来的开源生态的变化中,大小 AI 公司的新动作和调整。 O 系列解锁 Agent 应用,DeepSeek R 系列是开源的胜利、专注的胜利、本 o1 在大语言模型中引入强化学习,开启 Pretraining(预训练)Scaling Law 之外的 Pos ...
抛弃 OpenAI 后,Figure 机器人“进化”:像人一样行走!
AI科技大本营· 2025-03-28 03:41
"AI 的下半场是落地,而具身智能将是最佳载体"。 紧接着,Figure 又于近日宣布,其工业机器人 Figure 02 通过纯强化学习算 法,成功实现了如人类般自然流畅的行走。 强化学习驱动: 突破 Sim-to-Real 难题 责编 | 梦依丹 出品 | CSDN(ID:CSDNnews) Figure 自 2 月宣布与 OpenAI 结束合作转而拥抱完全自主研发路线后,动作频频。 先是于 2 月下旬正式发布其倾力打造的机器人操作系统 Helix ,该系统被视为 Figure 实现"真正自主"的关键基石。不仅如此,搭载该模型的 Figure 02 也已进驻物流工厂,承担起快递分拣的重任,显示了其初步的商业化潜力。 然而,仅仅在模拟环境中训练是不够的。如何将模拟环境中的学习成果成功迁移到真实的机器人身上,是一个巨大的挑战,被称为 "Sim-to-Real" 问 题。为了克服这一难题,Figure 团队采用了两种关键策略: 通过将域随机化与高频扭矩反馈控制相结合,Figure 成功地实现了零样本迁移(Zero-Shot Transfer),即无需额外的微调,在模拟环境中训练出的策 略可以直接应用于真实的 Fi ...
人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛
量子位· 2025-03-26 10:29
Core Viewpoint - The article highlights the advancements in humanoid robots, particularly focusing on Figure's new model, which utilizes reinforcement learning to achieve more natural walking patterns, resembling human movement more closely [3][4][22]. Group 1: Technological Advancements - Figure's new humanoid robot, Figure 02, demonstrates significant improvements in walking, appearing more human-like with a lighter gait and faster speed [4][6]. - The walking control system is trained using reinforcement learning, which allows the robot to learn how to walk like a human through simulated trials [9][14]. - The training process involves high-fidelity physical simulations, enabling the collection of years' worth of data in just a few hours [10][14]. Group 2: Simulation Techniques - The training incorporates domain randomization and high-frequency torque feedback to bridge the gap between simulation and real-world application, allowing the learned strategies to be applied directly to physical robots without additional adjustments [11][18]. - The robots are exposed to various scenarios during training, learning to navigate different terrains and respond to disturbances [15][18]. Group 3: Future Plans and Industry Context - Figure plans to expand this technology to thousands of Figure robots, indicating a significant scaling of their operations [21]. - The article notes a broader trend in the industry, with many companies, including Vivo, launching their own robotics initiatives, reflecting a growing interest in humanoid robots [24][25].
这些大专生,教出人形机器人
盐财经· 2025-03-25 10:39
文| 朱秋雨 赖丁萌(实习生) 编辑| 向由 值班编辑 | 宝珠 视觉 | 顾芗 中国人形机器人赛道最近"好消息"不断。 前有深圳的众擎机器人完成全球首例前空翻,后有杭州宇树科技机器人实现720度回旋踢。3月11日,前 华为天才少年"智晖君"创立的智元机器人,发布了人形机器人灵犀X2。在视频里,机器人不仅可以像人 一样走路、跑步,还能玩滑板车、骑自行车。 人们正通向"机器人养老"的美好愿景,而现在,一个新工种随着具身机器人的火爆而出现。在Boss直 聘、实习僧等求职APP上,一些公司正招聘学历要求大专以上,名叫"机器人数据采集员"的岗位。 在Boss直聘等求职APP上,一些公司正招聘"机器人数据采集员"的岗位 这份工作的主要内容包括:负责机器人数据采集工作、控制机器人正确移动、保护机器人处于安全状 态,等等。 除此以外,很多岗位还列出了对人的外形的要求,有的是,"不戴眼镜,没有高度近视";有的要求"男生 身高170-175,体重65公斤以内;女生160-168,体重55公斤内";还有的公司要求,"不能有小肚子,身 体协调性较好,细心、灵活、有控制力"。 这些岗位成功引起了众人的注意。人们不禁好奇:机器人的数据 ...
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 05:10
Core Insights - The article discusses the emergence and significance of DeepSeek, a new high-performance reasoning model from China, highlighting its open-source nature and the implications for the AI landscape [3][4][12]. Group 1: DeepSeek Overview - DeepSeek has gained attention for its performance on AI model rankings, raising both interest and concerns [3]. - The model's open-source release of weights and technical details provides valuable insights into reasoning models and their future development [4][12]. Group 2: Training Process - The training of DeepSeek involves three main steps: pre-training on vast datasets, supervised fine-tuning (SFT) with human-generated examples, and reinforcement learning with human feedback (RLHF) [6][9][10]. - The training process is designed to enhance the model's ability to provide accurate and contextually relevant answers, moving beyond simple question-answering to more complex reasoning [11][12]. Group 3: Innovations and Techniques - DeepSeek R1 represents a culmination of various innovations, including self-learning capabilities and multi-stage training processes that improve reasoning abilities [11][13][14]. - The model employs a mixture of experts (MoE) architecture, which allows for efficient training and high performance in reasoning tasks [15][30]. Group 4: Performance and Cost - The cost of training DeepSeek V3 was approximately $5.5 million, with the transition to R1 being less expensive due to the focus on reasoning and smaller-scale SFT [27][29]. - The article notes that the performance of reasoning models has significantly improved, with DeepSeek R1 demonstrating capabilities comparable to leading models in the industry [31][35]. Group 5: Future Implications - The rise of reasoning models like DeepSeek indicates a shift in the AI landscape, necessitating increased computational resources for inference and testing [31][34]. - The open-source nature of these models fosters innovation and collaboration within the AI community, potentially accelerating advancements in the field [36][39].