具身智能之心
Search documents
李弘扬老师团队最新工作X0!超低成本高效实现机器人操作任务~
具身智能之心· 2025-12-24 04:01
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 Veni, vidi, vici. "Veni, Vidi, Vici"——即"我来,我见,我征服"。正如尤利乌斯·凯撒在泽拉一役的速胜诠释了战略效率,我们也力求攻克机器人领域的"珠穆朗玛峰":在真实场景的 服装操控任务中实现100%的可靠性。在这项使命里,"Veni(数据采集)""Vidi(模型训练)""Vici(实机推理)"构成了递进且环环相扣的链条,每一环都至关重 要。现有基础模型(如Pi0与GO-1)得靠"暴力堆规模"才能勉强达到这一水平,而我们提出了更高效的方案:仅用常规成本的一小部分,就能实现0%到100%的可靠 度,只需20小时人类演示数据+8台A100 GPU,而非行业常用的数万小时数据+数百台GPU。 通过一套三阶段技术理念实现了这一点,主要优化了从"感知"到"攻克"的衔接: a. 模式一致性 :并非所有数据 ...
具身智能之心元旦开始送一波福利了(课程/具身硬件/科研辅导等)
具身智能之心· 2025-12-24 04:01
时间: 12.24号-1.5号 项目辅导: 1v1求职辅导, 优惠中 ... .: # 科研论文辅导欢迎添加微信 paperguidance了解更多 课程、知识星球、硬件欢迎添加 小助理微信AlDriver005了解更多 付费课程与社区 1.所有具身课程7.5折优惠 2.知识星球新人加入6折,老学员续费5折 3.高性价比的具身科研机械臂最高减1500 (今年首次) 自活动开始日起,具身课程消费满3000, 赠送具身高质量课程一门(课程联系小助理领取) 论文/项目辅导 *100 【振】17 ...
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 00:25
点击下方 卡片 ,关注" 具身智能 之心 "公众号 最近在盘VLA+RL的工作,不管是基于世界模型的在线方案,还是offline,VLA好像始终离不开RL。仅依赖 模仿学习的 VLA 在真实世界 OOD 场景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。强化学习 (RL)的优势在于能够显著提升VLA模型的泛化能力,一些工作的实验显示分布外任务上的性能提升可达 42.6%。有效果,就有很多工作继续跟进,今年产出了好多篇paper~ 近期的几个工作,包括wholebodyvla、pi0.6、GR-RL都取得了惊艳的效果,pi0.6推出的时候很多同学说大概 率就是+强化。世界模型加持的在线系统也是比较活跃的方向,期望有更多突破。 工具上,VLA+RL框架也在逐渐完善,这里也推荐下于超老师那边的Rlinf,支持的方法越来越多。 链接:https://github.com/RLinf/RLinf 由于相关工作众多,这里给大家分享一些这两年比较有代表性的VLA+RL工作,这些paper陆续被不同的会 议收录。 ❝ 我们也建议后续的研究可以往此方向靠拢,如果不知道怎么展开研究也欢迎咨询具身智能之心的科研助理,一 键启动 ...
深度解析世界模型嵌入具身系统的三大技术范式
具身智能之心· 2025-12-24 00:25
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。而世界模型的引入,让智能体拥有了「想象」未来的能力。 具身智能机器人通过世界模型想象抓杯子任务 那么关键问题来了: 世界模型应该如何「放进」具身系统中?是作为一个独立的模拟器?还是作为策略网络的一部分? 近日,依托 北京中关村学院 , 来自 中科大、哈工大、南开大学、清华大学、宁波东方 理工大 学 等机构的研究团队发布了一篇全面综述,首次从架构集成 (Architectural Integration) 的视角,将现有研究划分为三大范式。 本文将带你一览这篇硬核综述的核心精华。 论文标题: Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey 原文链接: https://doi.or ...
MIT团队提出OpenTouch:首次实现真实场景下视觉、触觉、手部姿态的同步建模
具身智能之心· 2025-12-24 00:25
在计算机视觉与机器人研究领域,人类通过视觉、触觉、本体感受的多模态融合实现精准物理交互,但现有技术长期依赖单一视觉模态,难以捕捉接触力、材质属 性等关键信息。 MIT、杜克大学等联合团队提出的 OPENTOUCH 框架 ,以 "野生环境全手触觉数据集" 为核心,通过 "硬件感知系统 - 大规模数据采集 - 多模态基 准测试" 的三层技术体系,首次实现真实场景下视觉、触觉、手部姿态的同步建模,为 embodied 学习与机器人操纵提供了全新范式。 论文题目:OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction OpenTouch — Project Page (opentouch-tactile.github.io):https://opentouch-tactile.github.io/ 核心亮点:首个野生环境全手触觉数据集、低 - cost 同步感知硬件、跨模态检索与分类基准、800+ 物体 / 14 场景覆盖 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yuxin Ray Song等 编辑丨具身智能之心 本文只做学术分享 ...
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
具身智能之心· 2025-12-24 00:25
点击下方 卡片 ,关注" 具身智能之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 想用3D高斯泼溅 (3DGS) 重建一座城市? 过去,这往往意味着一套昂贵的GPU集群。如今,研究人员给出了另一种答案: 一张RTX 4090,加上足够大的CPU内存,也可以完成城市 级3D重建 。 来自纽约大学的研究团队在ASPLOS 2026上提出了名为 CLM (CPU-offloaded Large-scale 3DGS training) 的系统。该工作通过将3D 高斯泼溅训练中占用显存最多的参数转移到CPU内存中,使单张消费级显卡也能训练上亿规模的高斯点模型,为大场景神经渲染显著降低了 硬件门槛。 3DGS的规模应用瓶颈 3D高斯泼溅 (3DGS) 因其高质量渲染效果和极高的渲染速度,已成为神经渲染领域的重要技术路线。然而,当研究人员尝试将其用于城市 街区、大型室内空间等复杂场景时,问题很快显现出来—— GPU显存成为最直接、也最难解决的瓶颈 。 一个高精度的3DGS模型通常包含数千万乃至上亿个高斯点。每个高斯点包含位置、形状、颜色和不透 ...
“智汇众力 共擎新元” 机器人租赁平台“擎天租”重磅发布
具身智能之心· 2025-12-23 09:33
Core Viewpoint - The article discusses the launch of the "Qingtian Rental" platform at the National Robot Rental Ecological Summit, emphasizing the need for a collaborative ecosystem in the robot rental industry to drive standardization and scalability [1][13]. Group 1: Industry Development and Needs - The robot rental industry is transitioning from fragmented services to an ecological layout, with a focus on creating industry rules and addressing real market demands and challenges [3][5]. - The "Qingtian Rental" platform aims to gather various stakeholders, including users, rental companies, content developers, and equipment manufacturers, to enhance the overall value of the robot rental industry and define a new era of Robot as a Service (RaaS) [3][5]. Group 2: Strategic Plans and Innovations - The "Qingtian Rental 1234 strategic plan" aims to achieve partnerships with over 10 manufacturers, 200 gold service rental companies, 3,000 content creators, and 400,000 rental customers by 2026, reflecting strong confidence in the industry [5]. - The platform innovatively transforms high-threshold robot usage scenarios into a convenient rental model similar to shared charging devices, addressing high operational costs and complex collaboration chains in the current market [6][8]. Group 3: Platform Features and Network - The "Qingtian Rental" platform connects users, merchants, and creators, offering content operation and business support, allowing users to place orders directly and ensuring service guarantees [6][8]. - The platform has established a nationwide rental network covering 50 core cities and over 600 service providers, with plans to expand to 200 cities by 2026, ensuring nationwide delivery capabilities for robot services [8]. Group 4: Community and Ecosystem Development - The launch of the "Qingtian Rental" application innovation community aims to support the platform's development through strategic partnerships and investment, enhancing the ecosystem for all stakeholders [12]. - The successful summit marks the beginning of a collaborative and win-win industrial ecosystem, indicating a deep evolution towards ecological and service-oriented rental models in the embodied intelligence industry [13].
首个长程「VLA-World Model」一体化模型!ManualVLA解锁长程精细操作任务
具身智能之心· 2025-12-23 03:34
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难 以兼顾高层规划与精细操控。 针对这一问题, 北京大学、香港中文大学与至简动力 团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。 不同于 π0 等端到端模型在处理复杂长程任务时仍面临的推理与执行割裂问题,ManualVLA 摒弃了将「高层次规划」与「动作生成」拆分的传统分层级联 方案,构建了全新通用基础模型 Mixture-of-Transformers (MoT) 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同。 首先由「规划专家」生成由图像、空间位置提示和文字说明组成的多模态操作说明书,再通过显式与隐式相结合的「思维链」(ManualCoT)推理,将信 息反馈给「动作专家」,为每一步操作提供清晰的显式控制条件的同 ...
VLA+RL技术交流群来啦~
具身智能之心· 2025-12-23 03:34
添加小助理微信AIDriver005,备注:昵称+机构+进群。 具身智能之心VLA技术交流群来啦~欢迎VLA模型、VLA+RL、轻量化与部署方向的同学加入! ...
看了这么多开源项目,推荐复现这几个VLA方法~
具身智能之心· 2025-12-23 03:34
Core Viewpoint - The article emphasizes the increasing demand for VLA (Variable Latent Action) algorithms in the industry, highlighting the challenges associated with data collection and model training, which are critical for successful implementation in real-world applications [1][2][3]. Group 1: VLA Algorithm Demand and Challenges - There is a significant demand for VLA algorithms, as evidenced by numerous job postings and the increasing number of related research papers [1]. - Many practitioners express frustration over the difficulties in tuning VLA algorithms and the complexities involved in data collection [2]. - The reliance on real machine data for effective VLA model training poses challenges, as the data collected often proves to be inadequate for practical applications [3][8]. Group 2: Data Collection and Training - Data collection methods for VLA primarily include imitation learning and reinforcement learning, with a focus on remote operation and VR technologies [10]. - Effective data collection and ensuring high-quality data are crucial, particularly in the context of real-to-sim-to-real (real2sim2real) methodologies [10]. - Training VLA models typically requires simulation debugging, especially when real machine data is insufficient, with frameworks like Mujoco and Isaac Gym being essential for this process [11]. Group 3: Model Deployment and Optimization - After training, VLA models often require optimization techniques such as quantization and distillation to reduce parameter size while maintaining performance [12]. - The deployment of VLA models on edge devices presents challenges due to their large parameter sizes, necessitating lightweight operations [12]. - The article discusses the importance of fine-tuning models and the various tricks involved in training complex models like π0 and π0.5, which require significant expertise [11][8]. Group 4: Educational Initiatives - The article introduces a practical course aimed at helping individuals learn about VLA, covering topics such as hardware, data collection, algorithm training, and model deployment [13][17]. - The course is designed to address the rapid advancements in VLA technology and aims to equip participants with hands-on experience and knowledge [13][18]. - It includes a comprehensive curriculum that spans various aspects of VLA, from foundational concepts to advanced deployment techniques [19][20][21].