强化学习
Search documents
算法“点燃”新引擎 AI成航天推进技术的“助推器”
Huan Qiu Wang Zi Xun· 2025-12-29 01:27
来源:科技日报 科技日报记者 张佳欣 核推进技术,尤其是核热推进,是一种极具前景的航天器高效推进技术。它利用核反应释放的巨大热能,将氢气等推进剂加热到极端状态再喷射出去,让飞 船以极低的燃料消耗跑极长的路程。但挑战在于:如何在一个几米宽的发动机里,驾驭"微型核电站"般的狂暴能量? 如今,AI的加入使这一过程的优化更加智能化和精细化,强化学习可帮助研究人员设计更高效的核热推进系统,通过实时数据反馈调整设计参数。 在真空的宇宙中,没有空气可借力,航天器的一切机动都依赖自身携带的推进系统。推进效率不仅决定飞得多快、能飞多远,也直接关系到任务成本,甚至 航天员的生命安全。然而,支撑了人类航天半个多世纪的化学燃料推进,正在逼近物理极限。 在这一背景下,人工智能(AI)开始进入航天推进这个传统上高度硬核的领域。据澳大利亚《对话》杂志报道,AI,尤其是机器学习,正在帮助科学家重 新思考核热推进、等离子体推进等前沿方案,为人类探索深空提供更加强大的新引擎。 在数字空间不断试错 AI已在航天推进技术的设计和实时操作中发挥着越来越重要作用。它模拟人类"从经验中改进"的过程:不给标准答案,而是通过无数次尝试,让机器在"试 错"中掌 ...
市场正在惩罚只懂理论的端到端算法工程师......
自动驾驶之心· 2025-12-29 01:07
该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实际的量产经验。这门课程是自动驾驶之心联合工业界算法专家开设的《面向量产的端到端实战小班课》!课程只有一个重点:聚焦量产。从一 段式、两段式、强化学习、导航应用、轨迹优化、兜底方案再到具体量产经验分享。面向就业直击落地,所以这门课程目前不打算大规模招生, 仅剩「15名」招生 名额...... 仅剩「15个」名额,扫码咨询助理! 讲师介绍 王路, C9本科+QS50 PhD,已发表CCF-A和CCF-B论文若干。现任国内TOP tier1算法专家,目前从事大模型、世界模型等前沿算法的预研和量产,所研发算法已成功 落地并量产,拥有丰富的端到端算法研发和实战经验。 课程大纲 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 近期和业内一位做招聘的朋友聊了聊,他们反馈中游车企和Tier1 开始铺 人力和资源跟进端到端。但面试的候选人往往只懂一部分,甚至有些还停留在论文层面, 根本没有量产经验和优化能力,端到端 ...
亚马逊团队15分钟单GPU搞定人形机器人步态训练!
具身智能之心· 2025-12-29 00:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Younggyo Seo等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在人形机器人控制领域,强化学习(RL)虽已实现从仿真到现实的迁移,但高维动作空间、强域随机化需求导致训练周期冗长,严重制约迭代效率。 亚马逊 FAR 实验室团队提出的快速强化学习方案 ,以优化后的离线 RL 算法(FastSAC、FastTD3)为核心,通过 "算法调优 - 极简奖励设计 - 大规模并行仿真" 的 三位一体技术体系,首次实现单 GPU 15 分钟训练出鲁棒人形机器人 locomotion 政策,同时支持全身运动追踪任务的快速部署,彻底重构了人形机器人 sim-to-real 的迭代范式。 论文题目:Learning Sim-to-Real Humanoid Locomotion in 15 Minutes FastSAC-Humanoid — Project Page:https://youngg ...
亚马逊团队15分钟单GPU搞定人形机器人步态训练!Locomotion新方案
具身智能之心· 2025-12-28 10:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Younggyo Seo等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在人形机器人控制领域,强化学习(RL)虽已实现从仿真到现实的迁移,但高维动作空间、强域随机化需求导致训练周期冗长,严重制约迭代效率。 亚马逊 FAR 实验室团队提出的快速强化学习方案 ,以优化后的离线 RL 算法(FastSAC、FastTD3)为核心,通过 "算法调优 - 极简奖励设计 - 大规模并行仿真" 的 三位一体技术体系,首次实现单 GPU 15 分钟训练出鲁棒人形机器人 locomotion 政策,同时支持全身运动追踪任务的快速部署,彻底重构了人形机器人 sim-to-real 的迭代范式。 论文题目:Learning Sim-to-Real Humanoid Locomotion in 15 Minutes FastSAC-Humanoid — Project Page:https://youngg ...
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-28 09:23
Core Viewpoint - The article discusses the DiffusionDrive model, which utilizes a truncated diffusion approach for end-to-end autonomous driving, emphasizing its architecture and the integration of reinforcement learning to enhance trajectory planning and safety [1]. Group 1: Model Architecture - DiffusionDriveV2 employs a reinforcement learning-constrained truncated diffusion model, focusing on the overall architecture for autonomous driving [3]. - The model incorporates environment encoding, including bird's-eye view (BEV) features and vehicle status, to enhance the understanding of the driving context [5]. - The trajectory planning module utilizes multi-scale BEV features to improve the accuracy of trajectory predictions [8]. Group 2: Trajectory Generation - The model generates trajectories by first clustering the true future trajectories of the vehicle using K-Means to create anchors, which are then perturbed with Gaussian noise [12]. - The trajectory prediction process involves cross-attention mechanisms between the trajectory features and BEV features, allowing for more accurate trajectory generation [15][17]. - The model also integrates time encoding to enhance the temporal aspect of trajectory predictions [14]. Group 3: Reinforcement Learning Integration - The Intra-Anchor GRPO method is proposed to optimize strategies within specific behavior intentions, enhancing safety and goal-oriented trajectory generation [27]. - The reinforcement learning loss function is designed to mitigate instability during early denoising steps, using a discount factor to adjust the influence of rewards over time [28]. - The model incorporates a clear learning signal by truncating negative advantages and applying strong penalties for collisions, ensuring safer trajectory outputs [30]. Group 4: Noise Management - The model introduces multiplicative noise rather than additive noise to maintain the structural integrity of trajectories, ensuring smoother exploration paths [33]. - This approach addresses the inherent scale inconsistencies in trajectory segments, allowing for more coherent and realistic trajectory generation [35]. Group 5: Evaluation Metrics - The model evaluates generated trajectories based on safety, comfort, rule compliance, progress, and feasibility, aggregating these into a comprehensive score [27]. - Specific metrics are employed to assess safety (collision detection), comfort (acceleration and curvature), and adherence to traffic rules, ensuring a holistic evaluation of trajectory performance [27].
想了很久,还是得招人一起把事情做大(部署/产品方向)
自动驾驶之心· 2025-12-27 09:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大家好,我是柱哥。最近收到很多小伙伴的咨询和求助,希望我们能够联系更多的技术专家分享业内最 新的动态和观点。L2智能驾驶已经进入下半场,行业的难点和痛点需要更多有志之士参与进来一起突 破。后面我们将陆续为大家增加圆桌访谈、实战&工业级课程、咨询等各类输出。 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人 群)、课程开发和原创文章创作。 联系我们 待遇与合作方式,欢迎添加微信wenyirumo做进一步沟通。 作为国内自动驾驶领域创作的技术平台,我们期望能够在这波激流中贡献自己的力量,成为一个真的能 给行业带来价值的平台。 众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 主要方向 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学 习、端到端等多个方向。 ...
赵何娟对话王维嘉:AI没有系统性泡沫,原生AI应用将在三年内爆发 | 巴伦精选
Xin Lang Cai Jing· 2025-12-26 13:54
来源:钛媒体 12月20日,在钛媒体2025 T-EDGE全球对话中,钛媒体集团创始人、Barron's中国出版人「赵何娟 Talk」(Jany Talk)与硅谷资深投资人、企业家王维嘉先 生展开了一场深度对话。 两年前,ChatGPT风靡全球时,我们曾与王维嘉深入探讨AI的未来。两年后的今天,当Google Gemini 3掀起新一轮技术竞赛、华尔街开始质疑AI泡沫、扎克 伯格开出天价年薪抢人时,我们再次坐下来,拨开喧嚣,回答那些真正重要的问题: 模型竞争的终局是什么?哪些应用会率先落地?人类与机器的边界在哪里?未来一到三年,什么才是真正值得关注的变化? 以下为本次对话核心观点摘录: 1、OpenAI不会轻易出局,未来是交替领先的动态格局。只要各家公司使用相同的Transformer架构和技术路径,差距就不会是不可逾越的,未来将是"你六 个月超越我,我再六个月超越你"的持续迭代,不会突然出现某一家遥遥领先、无人可及的局面。 2、当前对英伟达的主要挑战在于,各大科技公司纷纷开始自研AI芯片,如果未来每家公司都能开发出成本更低、效率更高、易用性更好的芯片,其将面临 被替代的风险。未来云服务市场越集中,对其越不利 ...
以VLA+MOE架构打造工业具身大脑,赛索德智能斩获千万级天使轮融资
机器人圈· 2025-12-26 10:07
近日, 工业场景具身智能研发商赛索德智能宣布完成数千万元天使轮融资 ,本轮投资由宁波方正 (300998)、扬州金泉(603307)、顺景科技(603007)三家上市企业及创投机构南吉资本联合注 资,资金将用于核心技术迭代与工业化场景落地。 作为一家深耕工业具身智能的创新企业,赛索德智能正构建 "算法定义硬件"的机器人系统新范式。其核心 方向是通过VLA(多模态融合)+MOE(混合专家模型)架构打造工业级具身大脑,专门适配多品种、小 批量、定制化的工厂生产场景,精准填补当前市场中智能装配机器人的应用空白。 硬核团队护航技术落地,跨领域背景筑牢创新根基 赛索德智能的核心团队汇聚了机器人技术、人工智能、工业场景应用等多领域的资深专家,为技术创新与 商业转化提供了坚实支撑。 创始人孙鑫海拥有香港中文大学硕士学位,目前正在攻读清华 -米兰理工管理工程PhD,其研究方向聚焦 多模态融合下的空中交通流量预测与优化。凭借在安徽尼威动力、东方久乐汽车电子等企业的董事任职经 历,他对机器人产业趋势与客户核心需求有着深刻洞察,尤其擅长将前沿技术转化为具备商业价值的产品 方案。 联合创始人兼 CTO周丹弟博士毕业于北京理工大学计算 ...
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 09:18
对于从事自动化和计算机的同学,建议搞深度学习,VLA、端到端、世界模型都是很好的方向,从入门、到 工作甚至读博都有很大空间。对于机械和车辆的同学,可以先学习传统PnC、3DGS这些方向算力低、入手简 单。 剩下的就是一些方法论的提升了,多看论文多交流,慢慢形成自己的思考和idea。 对很多新人研究者,一个 好的idea需要踩很多次坑。如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了! 端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、毫米波雷 达、单目感知、车道线/在线高精地图等方向。 如果您有任意论文发表需求,支持带课题/研究方向咨询,欢迎联系我们, 微信:paperguidance 提供的服务 论文选题; 论文全流程指导; 实验指导; 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近收到不少同学的咨询,很多都是计算机、车辆、自动化和机械方向的同学。 先看自驾一些 ...
一个在量产中很容易被忽略重要性的元素:导航信息SD
自动驾驶之心· 2025-12-26 01:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近和业内专家讨论了导航信息SD如何应用到自动驾驶中,分享给大家: 图商提供的导航信息SD/SD Pro目前已经在很多量产方案上使用了。导航可以提供车道、粗粒度的waypoint等信息,相当于给司机提供了一个粗略的全局和局部视 野,将导航信息应用到车端模型上也就顺水渠成。目前来看,导航模块的核心职责有两个: 当然还有非常重要的一part,提供参考线reference line,这是下游规控强需的信息,有了参考线,可以极大的减轻规划的压力,相当于车辆已经有一条行驶的参考路 线,只需在细化即可。 除此之外,还可以提供规划约束与优先级、路径监控和重规划。 1. 车道级的全局路径规划:搜索一条目标车道的最优lane sequence; 2. 给行为规划提供明确的语义指导,方便车辆提前准备变道、减速、让行; 具体涉及到自车定位、道路结构构建和感知定位匹配可以参考下图: 在两段式中,导航输入到感知模型中,输出navi path,navi path作为ml planner的输入进而预测自车的行驶轨迹。 本文均出自平台最新推 ...