Workflow
具身智能之心
icon
Search documents
Google 新作背后:机器人测评Evaluation范式正在发生变化
具身智能之心· 2025-12-19 00:05
具身纪元 . 以下文章来源于具身纪元 ,作者具身纪元 见证具身浪潮,书写智能新纪元 编辑丨 具身纪元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 姚顺雨的在人工智能下半场的文章《The Second Half》,他说:在AI的下半场,技术方案已经很成熟,瓶颈变成了评估。 在具身智能的下半场,模型评估更加重要,也更加复杂。 完整评估单一策略,本身就不容易。 传统的评估方法需要在真机上去测试 ,困难也接踵而至: 第一点,成本高 :在真实硬件上进行大规模测试既费时又费力 尤其是当需要对比多个不同的策略版本时。 如果要提升测试效率,多个硬件的部署在所难免,这又是额外的成本。 控制测评变量的沉默成本也不小,比如要减轻光照的影响,要挑同样光线的情况去做测评 第二点,覆盖面有限: 测评需要设置不同的情况来测试模型是否能够依旧表现出色,但在真实场景中很难穷尽所有现实的情况,比如干扰物、杂乱的桌面和光线等 第三点,安全性风险: 测试机器人的安全性,往往意味着要给机器人去尝 ...
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心· 2025-12-19 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haoyuan Deng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 Vision-Language-Action(VLA)模型通过融合视觉、语言与动作,为机器人带来了强大的零样本与跨任务泛化能力。但仅依赖模仿学习的 VLA 在真实世界 OOD 场 景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。 强化学习(RL)正成为连接 VLA 预训练与真实部署的关键桥梁。 由南洋理工大学、北京邮电大学、清华大学联合推出, 本综述系统梳理了 RL-VLA 在"学习—优化—部署"全生命周期中的核心方法与挑战,并从四个维度构建了 完整技术图景:架构、训练范式、真实世界部署以及评估。 一、RL-VLA 架构:从开环推理到闭环优化 RL 通过奖励驱动的策略更新,使 VLA 从"复现示范"转向"结果导向"的闭环决策: 动作建模 A 论文链接(每月更新) :https://doi.org/10.362 ...
堆方块,这款机械臂丝滑跑出了pi0与pi0.5,支持Lerobot框架~
具身智能之心· 2025-12-19 00:05
想让算法快速落地实战的同学,不妨了解一下我们这款机械臂! 成功适配Lerobot啦~ 新手也能轻松解锁的精准实操! 继打通pi0与pi0.5任务后,Imeta-Y1轻量级机械臂现已适配Lerobot ,成功 实现夹取方块精准放入胶带圈的流畅操作,配套代码也将正式开源! 从识别抓取,到稳定搬运,再到对准放置,每一步都见证了算法的持续迭代与机械臂执行表现的稳定性。 让科研更贴近实战,让想法更快得到验证。Imeta-Y1与你一同进步,在具身智能的道路上,走得更稳、更 远。 面向具身科研领域打造的轻量级高性价比机械臂 还在为具身智能领域的硬件选择发愁吗? 太贵的机械臂买不起,太便宜的又难用、难上手? 别担心,Imeta-Y1 来了——这是一款专为新手和科研初学者设计的轻量级高性价比机械臂。 无论你是学生、教育工作者,还是刚踏入机器人领域的开发者,Imeta-Y1 都能帮你低成本、高效率地完成 算法验证与项目开发。 对小白尤其友好的是: ✅ 提供全流程开源工具链+代码示例,从数据采集到模型部署一气呵成; ✅ 支持 Python / C++ 双语言接口,无论你擅长哪种语言都能快速上手; ✅ 兼容 ROS1 / ROS2, ...
一起创造价值!具身智能之心招募运营和销售的同学了(全职&实习)
具身智能之心· 2025-12-18 09:30
具身智能之心招募运营和销售岗位了,欢迎和我们一起在具身与AI领域持续创造价值。 现开放4个坑位,2个全职2个实习 base:上海,薪资open~ 自媒体运营岗(1个全职+1个实习岗位) 负责科技自媒体平台的运营(自动驾驶、具身智能、机器人、大模型等方向),包括小红书、bilibili、公众号、视 频号、社群等。 职位介绍: 1. 负责各个自媒体平台的涨粉、活跃度提升、社群的运营; 2. 负责在线课程、其它教育产品的推广; 1. 具备公众号等自媒体平台运营的经验; 2. 具备一定推广销售的能力; 3. 熟悉办公软件、视频制作软件; 产品销售岗位(1个全职+1个实习岗位) 负责教育产品的销售(自动驾驶、具身智能、机器人、大模型等方向),包括课程、论文辅导、求职辅导、硬件 等。 职位介绍: 1. 负责平台课程、硬件和其它配套教育产品的销售; 3. 负责视频剪辑、海报制作,负责直播宣传等; 职位要求: 3. 和运营团队对接,提升月咨询量和销售额; 职位要求: 1. 具备在线产品销售的经验; 2. 具备线下产品推广的能力; 3. 熟悉办公软件,大模型使用等; 联系我们 薪资比较open,感兴趣的同学可以添加峰哥微信oo ...
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-18 09:30
Core Viewpoint - The article discusses the rapid growth and potential of VLA (Whole Body Visual Learning) algorithms in the field of embodied intelligence, highlighting the increasing availability of diverse data sources and standardized evaluation metrics, which may lead to industrialization soon [2][12]. Group 1: VLA Development and Challenges - VLA algorithms are experiencing explosive growth, supported by various frameworks and tools like reinforcement learning (RL) that enhance their generalization performance [2]. - Despite the promising direction, many practitioners face challenges with VLA, including difficulties in tuning and data collection, leading to frustrations among newcomers in the field [3][10]. - Real data collection is essential, often requiring hardware setups such as remote operation and VR, but the quality of real-world data can be suboptimal, complicating the training process [5][11]. Group 2: VLA Implementation Modules - The implementation of VLA involves several key modules, including data collection methods based on imitation learning and reinforcement learning, with a focus on ensuring high-quality data [13]. - Training VLA models typically requires simulation debugging, especially when real-world data is insufficient, with frameworks like Mujoco and Isaac Gym being crucial for this process [14]. - After training, VLA models need to undergo a "slimming" process to reduce parameter size for deployment, which involves techniques like quantization and distillation to maintain performance while minimizing resource usage [15]. Group 3: Educational Initiatives - To address the learning curve associated with VLA technologies, a specialized course has been developed, focusing on practical skills and project experience in the field of embodied intelligence [16][19]. - The course covers a comprehensive curriculum, including hardware, data collection, VLA algorithms, evaluation, simulation, and real-world experiments, aimed at equipping participants with the necessary skills for the industry [21][36].
全球首条!具身智能机器人在宁德时代电池产线实现规模化落地
具身智能之心· 2025-12-18 04:00
近日,全球首条实现 人形具身智能机器人规模化落地 的新能源动力电池PACK生产线,在宁德 时代中州基地正式投入运行。 人形机器人"小墨"已能精准完成电池接插件插接等复杂作业,标 志着具身智能在智能制造领域的应用取得里程碑式突破。 柔性操作: 在插拔柔性线束时,能动态调节力度,确保连接可靠且不损伤部件。 高效可靠: 在实际运行中,其插接成功率稳定在99%以上,作业节拍已达到熟练工人水平。 如今,"小墨"已成为产线上不可或缺的一员。它不仅能自主检测线束连接状态,发现异常即时 上报,有效降低不良品率,还能在作业间隙主动切换至巡检模式。面对多型号电池的连续生产 任务,其单日工作量实现了三倍提升,且一致性与稳定性表现卓越。 "小墨"由宁德时代生态企业——千寻智能机器人公司研发,搭载了宁德时代自研电池,是产业 链协同的成果。为了将实际场景需求转化为工程技术指标,宁德时代联合多个部门深入产线调 研,共同制定了兼具前瞻性与落地可行性的开发方案,为具身智能机器人的规模化部署奠定了 基础。 "小墨"所替代的EOL与DCR工序,是电池包下线前的最终功能测试。该环节因具有"多品种、 小批量、高柔性"的特点,长期依赖人工操作。工人需要 ...
EVOLVE-VLA:VLA模型测试时训练,突破模仿学习瓶颈
具身智能之心· 2025-12-18 00:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zechen Bai等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、研究背景与动机 现有VLA模型的核心困境 视觉-语言-动作(VLA)模型借助大型语言模型(LLM)的语义先验,在机器人操作任务中取得了显著进展,但当前主流的监督微调(SFT)训练范式存在两大根 本性局限: 人类学习范式的启发 人类掌握操作技能的核心是"通过实践学习"——反复尝试、从环境中获取反馈、逐步修正动作。这与SFT的"静态模仿学习"形成鲜明对比,因此,让VLA模型在部 署阶段通过环境交互实现持续学习,成为突破现有局限的关键方向。 核心挑战 测试时训练(TTT)的核心障碍是 缺乏Oracle奖励信号 (训练时的模拟器真值成功信号在部署时不可用)。直接使用朴素的进度估计器会产生噪声信号,可能误导 政策优化,尤其在长视野任务中,噪声累积会严重影响学习效果。 二、核心创新点 1. 测试时自主反馈机制 :用预训练的进 ...
复旦&港大等团队!WholeBodyVLA:面向全身移动操作控制的VLA框架
具身智能之心· 2025-12-18 00:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 现有方法的不足 人形机器人需要精确的移动能力和灵巧的操作技能来完成具有挑战性的移动-操作任务。然而,现有的模块化或端到端方法在"操作感知型移动"方面存在不足。无法 通过规划和执行移动来主动创造操作所需的前提条件(如接近目标、调整姿态、保持稳定),而是将移动和操作视为独立阶段。 ★ 这使得机器人被限制在有限的工作空间内,难以完成大范围移动-操作任务。 ★ 核心挑战在于"操作感知型移动":规划和执行能够主动创造操作前提条件(接近、定向、稳定)的移动,而非将移动和操作视为独立阶段。 一种朴素的解决方案是通过高层规划器序列化移动和操作,在不同技能间切换(如导航与抓取)。然而,有限的闭环反馈和缺乏端到端联合优化可能导致误差累 积,使机器人处于不利于后续操作的次优状态。另一种有前景的方案是端到端框架,直接执行全身控制以缓解模块化pipeline的切换问题,但通 ...
SIGGRAPH 2025:摩尔线程赢3DGS挑战赛大奖,LiteGS全面开源
具身智能之心· 2025-12-18 00:07
Core Insights - The article highlights the significant achievement of Moore Threads at the SIGGRAPH Asia 2025, where the company won a silver medal in the 3D Gaussian Splatting Reconstruction Challenge, showcasing its advanced algorithm capabilities and hardware-software optimization in next-generation graphics rendering technology [1][17]. Group 1: 3D Gaussian Splatting Technology - 3D Gaussian Splatting (3DGS) is a revolutionary 3D scene representation and rendering technology introduced in 2023, achieving a remarkable balance between image quality, efficiency, and resource usage, with rendering efficiency improved by hundreds to thousands of times compared to traditional NeRF [4][8]. - The technology demonstrates strong adaptability and scalability in areas such as ray tracing, real-time VR/AR rendering, and multimodal fusion, making it a foundational technology for embodied AI, which requires high-quality, low-latency 3D environment modeling [7][8]. Group 2: Competition Details - The 3DGS Reconstruction Challenge required participants to complete high-quality 3DGS reconstruction within 60 seconds using real terminal video sequences and imperfect camera trajectories, emphasizing the challenge of achieving both reconstruction quality and speed [10][12]. - The evaluation metrics included PSNR (Peak Signal-to-Noise Ratio) for reconstruction quality and time taken, ensuring a fair and transparent ranking process [12][14]. Group 3: Moore Threads' Performance - Moore Threads' AI team, competing under the identifier "MT-AI," achieved a commendable balance in reconstruction accuracy and efficiency, securing the second place with an average PSNR of 27.58 and a reconstruction time of 34 seconds [17][21]. - The results from the competition indicated that Moore Threads' performance was competitive, with the top team achieving a PSNR of 28.43 and a reconstruction time of 57 seconds [18]. Group 4: LiteGS Library - Moore Threads developed the LiteGS library, which optimizes the entire pipeline from GPU systems to data management and algorithm design, achieving a PSNR of 27.58 and a reconstruction time of 34 seconds, significantly ahead of many competitors [21][24]. - LiteGS can achieve up to 10.8 times training acceleration while reducing parameter count by over 50%, demonstrating its engineering practicality and technological foresight [25][31]. - The library has been fully open-sourced on GitHub to promote collaborative development and continuous evolution in 3D reconstruction and rendering technology [27].
VGGT4D:无需训练,实现4D动态场景重建
具身智能之心· 2025-12-18 00:07
编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力? 来自香港科技大学(广州)与地平线 (Horizon Robotics) 的研究团队提出了 VGGT4D。该工作通过深入分析 Visual Geometry Transformer (VGGT) 的内部机制,发现并利用了隐藏在注意力层中的运动线索。 作为一种无需训练 (Training-free) 的框架,VGGT4D 在动态物体分割、相机位姿估计及长序列 4D 重建等任务上均取得了优异性能。 论文标题: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction 论文链接: https://arxiv.org/abs/2511.19971 ...