Workflow
具身智能之心
icon
Search documents
3天搞定机械臂上的VLA完整部署:算法&项目实践
具身智能之心· 2025-07-01 12:07
2025年政府工作报告中首次将" 具身智能 "写入,它成为了 当下企业与院校竞相研究的热点。而 机械臂作为具身智能落地的 核心载体,在工业、医疗、服务等领域应用广泛。 许多研究者和工程师 往往会在 将算法从仿真环境部署到硬件本体时,经常面临诸多卡点。核心主要有2个方面的原因: 1.工程实践能力不足,难以将理论算法有效转化为实际可运行的硬件操作; 2.对机械臂操作与抓取的经典方法、模仿学习方法和端到端VLA方法掌握不透彻; 这使得他们 在实际部署时,难以有效整合这些方法的优势,导致VLA算法在机械臂上的部署和运行效果不佳 ,阻碍了具身智 能在实际场景中的应用。 ( 遥操作数据驱动的模仿学习实战) 因此,深蓝学院联合 首批 华为天才少年, VINS作者, 上海交通大学副教授 秦通老师 与知名 机器人技术平台型企业 松灵机器 人 ,共同开设了 「具身智能线下实训营:机械臂操作与抓取」 。 仅剩 9个 学习名额 扫码抢占,咨询详情 实训营 不仅提供 真实机械臂的实操机会 ,还会结合行业最新技术趋势,全面讲解 运动规划、视觉反馈、模仿学习、VLA 等 关键技术 ,贯穿 "感知 - 决策 - 控制" 全流程, 通过线下理 ...
从感知能力提升到轻量化落地,具身这条路还要走很长一段时间~
具身智能之心· 2025-06-30 12:21
技术驱动与应用牵引的双重作用下,2025年具身智能产业呈现爆发式的增长,这些趋势不仅塑造着 行业的技术路线,也深刻影响着商业化落地的路径与节奏。这里也为大家盘一下这两年具身重点关 注的技术领域。 感知能力升级与多模态融合是具身技术路线发展的重要一环,在视觉感知之外,触觉感知则是这两 年发力的重点,特别是灵巧手领域,力控能大幅提升操作的精细度及结果反馈能力。多模态传感器 融合技术使机器人能够同时处理视觉、听觉、触觉等多种信息,这种融合不仅体现在硬件层面,更 在于算法层面的深度整合。大幅提升了环境感知的准确性和全面性。 大模型驱动的大脑算法正在不断地提升机器人对世界的经验认知与理解。特别是在人形机器人领 域,大模型基于多模态数据提升机器人的感知能力,推动机器人的自主学习、决策规划能力,并结 合动作训练、行为交互训练,有望提升动作的泛化能力。同时,轻量化的模型设计也成为行业落地 的迫切需求,我们更需要低算力、多模态、跨平台的轻量化模型作为支撑! 同时,仿真环境与数据生态建设也极为重要!仿真环境与世界模型的持续完善为具身智能提供了高 效的训练平台。基于对物理世界的规律认知经验,利用仿真平台进行物体运动、形变,环境的光 ...
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
具身智能之心· 2025-06-30 12:17
领域介绍 VLA模型的发展已成为机器人动作模型研究的重要焦点。这些模型通过在大规模预训练多模态大语言模型 (MLLM)的基础上增加动作头或额外的动作专家模块来生成动作。MLLM 在感知和决策方面提供了强大 能力,使 VLA 模型能够在广泛的机器人任务中表现出更强的泛化能力。然而,一个显著的限制仍然存在: 这些模型往往缺乏对动作的全面理解,因为动作仅被视为输出,而未被集成作为输入进行深入分析。相比 之下,世界模型展示了基于当前观察和动作预测未来视觉状态的能力,从而实现对视觉信息和行为动态的 双重理解。尽管有这一优势,世界模型受到无法直接生成动作输出的限制,导致功能缺口,限制了其在需 要显式动作规划的场景中的应用。 作者丨 JunCen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 WorldVLA功能与定义 WorldVLA是一种将动作与图像理解和生成相结合的自回归动作世界模型。WorldVLA 在单一框架中集成了 视觉 - 语言 - 动作( ...
重磅直播!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-30 12:17
>>直播和内容获取转到 → 具身智能之心知识星球 点击下方 卡片 ,关注" 具身智能之心 "公众号 ...
UCLA提出PEVA:具身Agents的世界模型时代
具身智能之心· 2025-06-30 03:47
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yutong Bai等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 背景与动机 本篇论文探讨了具身智能体理解 物理动作与视觉感知关系 的根本挑战。人类通过全身动作(如转身、伸 手)主动改变第一人称视角的视觉输入,这对智能体的环境交互和长期规划至关重要。现有世界模型(如 基于速度控制的导航模型)存在显著局限: 这些局限阻碍了智能体在真实场景中的物理交互能力。该研究提出 PEVA模型 ,首次将全身3D姿态作为条 件信号预测第一人称视频,为具身智能提供物理基础更扎实的仿真环境。内容出自国内首个具身智能全栈 学习社区:具身智能之心知识星球,欢迎和近200家公司和机构交流。 核心创新点 1. 结构化全身动作表征 关键突破 :将动作定义为48维向量,融合全局身体运动(骨盆位移)与局部关节旋转(15个上半身关 节的欧拉角变化),通过运动学树结构保留层次关系。 1. 动作表征简化 :多数模型采用低 ...
具身智能入门必备的技术栈:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-30 03:47
在近20年AI发展的路线上,我们正站在⼀个前所未有的转折点。从早期的符号推理到深度学习的突破,再到 如今⼤语⾔模型的惊艳表现, AI 技术的每⼀次⻜跃都在重新定义着⼈类与机器的关系。⽽如今,具身智能正 在全面崛起。 想象⼀下这样的场景:⼀个机器⼈不仅能够理解你的语⾔指令,还能在复杂的现实环境中灵活移动,精确操作 各种物体,甚⾄在⾯对突发情况时做出智能决策。这不再是科幻电影中的幻想,⽽是正在快速成为现实的技术 ⾰命。从Tesla的Optimus⼈形机器⼈到Boston Dynamics的Atlas,从OpenAI的机械⼿到Google的RT-X项⽬,全 球顶尖的科技公司都在竞相布局这⼀颠覆性领域。具身智能的核⼼理念在于让AI系统不仅拥有"⼤脑",更要拥 有能够感知和改变物理世界的"身体"。这种AI不再局限于虚拟的数字空间,⽽是能够真正理解物理定律、掌握 运动技能、适应复杂环境。它们可以在⼯⼚中进⾏精密装配,在医院⾥协助⼿术操作,在家庭中提供贴⼼服 务,在危险环境中执⾏救援任务。这种技术的潜在影响⼒是⾰命性的:它将彻底改变制造业、服务业、医疗健 康、太空探索等⼏乎所有⾏业。 从顶级会议ICRA 、IROS到Neu ...
港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)
具身智能之心· 2025-06-29 09:51
以下文章来源于具身智能研究室 ,作者Yuanxq 具身智能研究室 . 分享一些深度强化学习、多/单智能体、具身智能的相关知识。有缘更新,随缘关注。希望大家互相学 习补充。 作者丨 Yuanxq 编辑丨具身智能研究室 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 在复杂动态环境中实现四足机器人的安全高效移动,一直是机器人领域的核心挑战。传统方法 依赖深度相机或中间地图表示,难以应对三维空间中的非平面障碍、空中杂波及动态物体。香 港科技大学团队提出 Omni-Perception 框架,通过直接处理原始 LiDAR 点云数据, 实现了端到端的四足机器人全向避障能力。通过高保真 LiDAR 仿真工具和新型 PD-RiskNet 网络架构,推动了机器人在复杂三维环境中的自主导航技术。 1 、从 LiDAR 点云到全向避障的端到端设计框架 1.Omni-Perception 的核心架构解析 感知-控制一体化设计 优势: 时空信息直接利用 :避免了点 云到网格 ...
下半年CCF-A/B类会议窗口期收窄,发一篇具身论文还来得及吗?
具身智能之心· 2025-06-29 09:51
面向人群 课程内容 解决导师放养,无人指导,不知道如何做科研的问题 解决只了解零散知识,没有清晰的体系的问题 帮助同学建立科研思维,熟悉科研流程 帮助同学系统掌握掌握经典与前沿算法,形成清晰的体系 协助同学将模型理论与代码实践相结合,提升实践能力 助力同学将baseline深化拓展,形成自己的论文 在读计算机专业本、硕、博,导师放养,无人指导,希望获取论文创新思路 有科研需求,积累科研经验,提升职称,提高学术科研研成就 从事人工智能领域相关工作,想升职加薪,提高竞争力 考研申博留学,提升简历含金量 1v1科研论文指导各阶段指导内容主要包含以下内容: 对自驾和具身的研究者而言,错过上半年顶级会议的投稿窗口,不仅意味着研究成果发布延迟, 更可能错失重要的学术交流与合作机会。所幸,下半年的CCF提供了关键的替代和补充渠道。为 帮助研究者把握发表时间,我们特别整理了下半年CCF推荐会议列表(涵盖A/B/C类),供大家参 考与规划。 然而,高效利用这些宝贵机会仍然存在一定难度, 核心挑战 在于:如何在时间压力下,确保论文 质量达到高水平会议的标准?选题是否足够新颖突出?实验是否严谨充分?写作是否清晰有力、 符合规范?投 ...
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tian-Yu Xiang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 想象学习走路的情景:尽管祖先的经验让一些与生俱来的能力(例如:平衡感、反应)被编码到我们的 DNA中,但要真正学会走路,仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练,我们 的大脑和身体会逐渐协调一致,形成与环境交互的策略。这种 由通用能力到特定技能 的转变过程在人类中 十分常见,而如今, 智能机器人 也面临着类似的挑战:即便拥有强大的预训练模型作为"大脑",在执行具 体复杂任务前,仍需要经过类似于人类学习的"后训练"阶段,才能在新环境、新任务下达到理想表现。 1. 概述 这项工作从 人类运动技能学习 的角度系统性地对总结 VLA模型(视觉-语言-动作模型) 的 后训练(post- training)策略 。其主要贡献如下: (1) 从人类运动学习视角讨论了VLA模型后训练方法 :将人类运动技能 ...
具身智能之心sim2real交流群来啦!
具身智能之心· 2025-06-28 07:58
具身智能之心sim2real交流群来啦!我们针对业内常用的sim2real、sim2real2sim在机械臂、双臂、四足、人 形等多个领域任务展开讨论,欢迎感兴趣的大佬加入讨论交流! 扫码加入即可,群内只做交流分享,任何广告宣传一律拉黑清除。如若群已满,欢迎添加微信oooops-life, 邀请入群,备注sim2real加群。 ...