Workflow
reinforcement learning
icon
Search documents
DeepSeek 复盘:128 天后 ,为何迟迟推迟发布——SemiAnalysis
2025-07-07 15:45
Juy , 2025 DeepSeek Debrief: 128 Days Later //Traffic and User Zombification, GPU Rich Western Neocouds, Token Economics Tokenomics) Sets the Competitive Landscape minutes No comments By , and Wei Zhou AJ Kourabi Dyan Pate SemiAnaysis is hiring an anayst in New York City for Core Research, our word cass research product for the finance industry. Pease appy here t's been a bit over 150 days since the aunch of the Chinese LLM DeepSeek R1 shook stock markets and the Western A word. R1 was the first mode to be ...
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 09:20
在近20年AI发展的路线上,我们正站在⼀个前所未有的转折点。从早期的符号推理到深度学习的突破,再 到如今⼤语⾔模型的惊艳表现, AI 技术的每⼀次⻜跃都在重新定义着⼈类与机器的关系。⽽如今,具身智 能正在全面崛起。 MuJoCo ( Multi-Joint dynamics with Contact )不仅仅是⼀个物理仿真引擎,它更是连接虚拟世界与现实世 界的重要桥梁。在具身智能的技术⽣态中, MuJoCo 扮演着⾄关重要的⻆⾊,它为机器⼈学习提供了⼀个 ⾼保真、⾼效率的训练环境。 当我们谈论机器⼈学习时,⼀个核⼼问题是:如何让机器⼈在不损坏昂贵硬件的情况下,快速掌握复杂的 运动技能?传统的⽅法是在真实机器⼈上进⾏⼤量试错,但这种⽅式不仅成本⾼昂,⽽且效率低下,甚⾄ 可能存在安全⻛险。MuJoCo的出现彻底改变了这⼀现状。 通过 MuJoCo ,研究者可以构建⾼度逼真的虚拟机器⼈和环境,让 AI 系统在仿真中进⾏数百万次的试验 和学习。这种⽅法的优势是显⽽易⻅的:⾸先,仿真速度可以⽐现实时间快数百倍,⼤⼤加速了学习 过 程;其次,在虚拟环境中,机器⼈可以尝试各种极端情况⽽不⽤担⼼硬件损坏;最重要的是,通过精⼼ ...
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 12:41
作者 | 瀑风 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1916810989434807458 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『VLA』技术交流群 本文只做学术分享,如有侵权,联系删文 2025年5月,VLA的RL领域掀起了一股热潮,不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上, 而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。 早期探索:iRe-VLA (Improving Vision-Language-Action Model with Online Reinforcement Learning) ★ https://arxiv.org/pdf/2501.16664 arxiv.org/pdf/2501.16664 这篇文章的核心算法是PPO,并且针对在线强化学习不稳定的问题提出了双阶段的训练范式: 具体实现上,此文没有采用已有的VLA模型结构,而是将BLIP-2 3B用于VLM backb ...
华人 AI Surge 欲融 10 亿美金估值 150 亿,Grammarly 收购 Superhuman,Figma 提交上市
投资实习所· 2025-07-02 03:54
作为 SaaS 时代 PLG 和协同产品的典型代表之一,在经历了 Adobe 的收购但因监管因素取消收购的 Figma,今天终于提交上市申请了。 几个业务数据: 过去 12 个月的收入为 8.21 亿美金,同比增长 46%,毛利达到了 91% ,福布斯 2000 强企业中 78% 在使用 Figma,76% 的客户使用 Figma 至少 2 个产品,目前 Figma 拥有的现金为 15.4 亿美金。 Adobe 之前的收购失败后给了 Figma 10 亿美金的分手费,与此同时, Figma 已经买了 7000 万美金的比特币 ETF,并且打算通过 USDC 继续购买 3000 万美金的比特币 ,目前市场整体很看好 Figma 上市后的表现,Figma 成功上市后应该会给一级市场带来不少流动性。 AI 时代,Figma 也开始全面结合 AI 能力,已经推出了 Figma Sites(网站构建工具)、Figma Make(AI 编程工具)、Figma Buzz(图像生成)和 Figma Draw(矢量设计),扩展至全功能平台。 很有意思的一点是, Figma 超过 85% 的周活跃用户是来自美国以外的,国际收入占 ...
首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
机器之心· 2025-06-30 09:49
论文链接:https://arxiv.org/abs/2506.20512 代码仓库:https://github.com/GAIR-NLP/OctoThinker 近期,一份来自上海创智学院、上海交通大学的前沿研究论文吸引了人工智能领域的广泛关注。该论文深入探讨了不同基础语言模型家族(如 Llama 和 Qwen)在 强化学习(RL)训练中迥异表现的背后原因,并提出创新性的中期训练(mid-training)策略,成功地将 Llama 模型改造成高度适配强化学习的推理基础模型,显 著缩小了其与天生擅长 RL 扩展的 Qwen 模型之间的性能差距,为下一代 reasoning 能力 AI 系统的开发提供了关键的科学基础和技术路径。 论文发布后在社交媒体引发广泛关注,Meta AI 研究科学家、即将赴 UMass Amherst 任助理教授的 Wenting Zhao 率先盛赞:"Truly impressed by how an academic lab just figured out a lot of mysteries in mid-training to close the RL gap betwee ...
机器人顶会RSS 2025奖项公布!
具身智能之心· 2025-06-27 08:36
作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 恭喜获奖者。 RSS(Robotics: Science and Systems,机器人科学与系统会议)是机器人领域顶级学术会议,自 2005 年起每年举办一次,该会议旨在促进机器人领域的科学研究和 技术应用的发展。 今年大会已于 6 月 21 日至 25 日在美国洛杉矶举行。杰出 Demo 论文奖、杰出系统论文奖、杰出学生论文奖、杰出论文奖多个奖项已经公布。 地址:https://roboticsconference.org/program/awards/ 杰出 Demo 论文奖 论文标题:Demonstrating MuJoCo Playground 论文链接:https://www.roboticsproceedings.org/rss21/p020.pdf 论文主页:https://playground.mujoco.org/ 机构:UC 伯克利、Google ...
Meta hires key OpenAI researcher to work on AI reasoning models
TechCrunch· 2025-06-26 16:13
Core Insights - Meta has hired influential OpenAI researcher Trapit Bansal to enhance its AI reasoning models within a new AI superintelligence unit [1][2] - Bansal was instrumental in developing OpenAI's reinforcement learning initiatives and is recognized as a foundational contributor to OpenAI's first AI reasoning model, o1 [2] - The addition of Bansal is expected to significantly boost Meta's AI superintelligence lab, which includes other notable leaders from the tech industry [3] Company Developments - Mark Zuckerberg has been actively recruiting for Meta's AI team, offering substantial compensation packages, reportedly around $100 million, to attract top talent [4] - The specific compensation details for Bansal's move to Meta remain undisclosed [4] - Currently, Meta does not have a publicly available AI reasoning model as part of its Llama family of open models [3]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-24 14:29
在近20年AI发展的路线上,我们正站在⼀个前所未有的转折点。从早期的符号推理到深度学习的突破,再 到如今⼤语⾔模型的惊艳表现, AI 技术的每⼀次⻜跃都在重新定义着⼈类与机器的关系。⽽如今,具身智 能正在全面崛起。 想象⼀下这样的场景:⼀个机器⼈不仅能够理解你的语⾔指令,还能在复杂的现实环境中灵活移动,精确 操作各种物体,甚⾄在⾯对突发情况时做出智能决策。这不再是科幻电影中的幻想,⽽是正在快速成为现 实的技术⾰命。从Tesla的Optimus⼈形机器⼈到Boston Dynamics的Atlas,从OpenAI的机械⼿到Google的RT- X项⽬,全球顶尖的科技公司都在竞相布局这⼀颠覆性领域。具身智能的核⼼理念在于让AI系统不仅拥 有"⼤脑",更要拥有能够感知和改变物理世界的"身体"。这种AI不再局限于虚拟的数字空间,⽽是能够真 正理解物理定律、掌握运动技能、适应复杂环境。它们可以在⼯⼚中进⾏精密装配,在医院⾥协助⼿术操 作,在家庭中提供贴⼼服务,在危险环境中执⾏救援任务。这种技术的潜在影响⼒是⾰命性的:它将彻底 改变制造业、服务业、医疗健康、太空探索等⼏乎所有⾏业。 然⽽,要实现真正的具身智能,还⾯临着前 ...
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心· 2025-06-21 13:15
以下文章来源于AIGC面面观 ,作者欠阿贝尔两块钱 AIGC面面观 . 整理LLM、AIGC的入门笔记 | 论文学习笔记 | 一线大厂面经 | 探索AIGC落地 作者 | 欠阿贝尔两块钱 来源 | AIGC面面观 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『大模型』技术交流群 主要贡献 1. 高效混合架构设计 :结合MoE架构与Lightning Attention)的模型MiniMax-M1, 支持百万级上下文窗 口(1M tokens) ,生成长度达80K tokens时FLOPs仅为传统注意力模型的25%。 2. 超越DAPO的算法CISPO :通过 剪裁重要性采样权重 提升RL效率,相比DAPO实现2倍加速,避免了 传统方法(如PPO/GRPO)对低概率token有更好的采样效果。 3. 可扩展上下文 :支持从40K到80K Token生成长度的扩展。 本文只做学术分享,如有侵权,联系删文 1.混合注意力架构 Lighting Attention : 采用I/O感知的线性注意力计算,通过分块计算和内存优化 ,将长 ...
AI, Human, a Box and a Cat | Nick Broumas | TEDxUniversityofMacedonia
TEDx Talks· 2025-06-16 15:44
[μουσική] Γεια σας, είμαι ο Νίκος και δουλεύω στη μεγαλύτερη performance Marketing εταιρεία στην Ελλάδα και μια από τις πιο διακεκριμένες στην Ευρώπη. Δουλειά μας και μέρος της φιλοσοφίας μας είναι να αναγνωρίζουμε τα καινούργια συστήματα και να τα εντάσουμε στις διαδικασίες μας για να βοηθάμε τους συνεργάτες μας να μεγαλώνουν πιο γρήγορα και να πετυχαίνουν τους στόχους τους. Όπως μπορείτε να καταλάβετε, το AI είναι ήδη μέρος της πραγματικότητας μας και αυτή αυτό το TEDEX μελετά τις μορφές και μαζί θα μιλήσ ...