具身智能之心
Search documents
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 00:03
Core Insights - The article discusses the rapid growth and significance of the Vision-Language-Action (VLA) field, highlighting its potential to enable robots to understand human language, perceive the world, and perform tasks effectively [2][7]. Summary by Sections VLA Overview - VLA models have seen a dramatic increase in submissions, rising from single digits to 164 papers, an 18-fold increase [6]. - A model qualifies as VLA if it uses a pre-trained backbone on large-scale visual-language data, emphasizing its capabilities in language understanding, visual generalization, and task transfer [8][9]. Trends in VLA - **Trend 1: Efficient Architecture** Discrete diffusion models are emerging as a new paradigm, allowing for parallel generation of action sequences, enhancing efficiency [15][17]. - **Trend 2: Embodied Chain-of-Thought (ECoT)** ECoT enables robots to generate intermediate reasoning steps before actions, improving planning and interpretability [18][19]. - **Trend 3: Action Tokenizer** This trend focuses on converting continuous robot actions into discrete tokens that VLMs can understand, enhancing efficiency and integration of reasoning and action [22]. - **Trend 4: Reinforcement Learning (RL)** RL is re-emerging as a crucial tool for fine-tuning VLA strategies, particularly in extreme scenarios [26][27]. - **Trend 5: Efficiency Optimization** Efforts are being made to reduce the cost and complexity of VLA models, making them more accessible to smaller labs [28][29]. - **Trend 6: Video Prediction** Video generation models are being utilized to provide VLA with an understanding of temporal dynamics and physical laws [30]. - **Trend 7: Realistic Evaluation Benchmarks** New evaluation methods are being developed to address the saturation of existing benchmarks, focusing on future frame prediction tasks [37][39]. - **Trend 8: Cross-Body Learning** Innovations in architecture are essential for creating universal robot strategies that can operate across different structures [41][43]. Challenges and Future Directions - The article highlights the "performance ceiling" issue in mainstream simulation evaluations, where high scores do not necessarily translate to real-world capabilities [44]. - Two critical areas needing more attention are data quality and the potential for in-context learning to enhance VLA systems [49][50].
具身科研平台来了,为具身领域打造,高性价比
具身智能之心· 2025-11-03 00:03
面向具身科研领域打造的轻量级高性价比机械臂 还在为具身智能领域的硬件选择发愁吗? 太贵的机械臂买不起,太便宜的又难用、难上手? 别担心,Imeta-Y1 来了——这是一款专为新手和科研初学者设计的轻量级高性价比机械臂。 无论你是学生、教育工作者,还是刚踏入机器人领域的开发者,Imeta-Y1 都能帮你低成本、高效率地完成 算法验证与项目开发。 对小白尤其友好的是: ✅ 提供全流程开源工具链+代码示例,从数据采集到模型部署一气呵成; ✅ 支持 Python / C++ 双语言接口,无论你擅长哪种语言都能快速上手; ✅ 兼容 ROS1 / ROS2,并提供 URDF 模型,仿真与真机无缝切换; ✅ 24小时快速售后响应,遇到问题不卡壳,学习路上有保障! 该机械臂融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调,并提供全 流程开源SDK与工具链,助力用户快速实现算法验证、数据采集、模型训练与部署应用。 其紧凑型结构与模块化接口,尤其适用于嵌入式AI与机器人学习平台的开发与应用推广。 | 本体重量 | 4.2KG | 额定负载 | 3KG | 自由度 | 6 | | --- | --- | ...
新国立等校企3D与4D世界建模联合综述
具身智能之心· 2025-11-03 00:03
作者丨 VLNer 编辑丨视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者:Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu 单位: 新加坡国立大学, CNRS@CREATE, 浙江大学, 地平线机器人公司, 慕尼黑工业大学, 香港科技大学, 清华大学, 南京理工大学, 澳门 大学, 上海人工智能实验室, 阿里巴巴集团, 新加 ...
具身智能之心11.11优惠来了!课程/付费社区/论文辅导/开发套件!
具身智能之心· 2025-11-03 00:03
Group 1 - The core promotion period for the embodied intelligence series is from November 1 to November 11 [2] - Discounts include 30% off for new users and 50% off for renewals [3] - The embodied intelligence series courses are available at a price of 8 BT for a single course and 7 BT for three courses [2] Group 2 - Additional benefits include significant discounts on robotic arms and development components [3] - The company encourages inquiries for more details about the promotional activities [1][3]
清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案
具身智能之心· 2025-11-03 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Kang Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人视觉 - 语言 - 动作(VLA)领域,"大规模强化学习(RL)适配流式模型" 一直是难以跨越的鸿沟 ——现有方案要么受限于监督微调(SFT)的数据集依 赖,面对新任务泛化能力骤降;要么因流式模型迭代去噪过程的 "动作对数似然难计算" 问题,无法将 RL 的环境交互优势融入其中。 而来自清华大学、北京大学、中科院自动化所等团队联合提出的 ,用 "Flow-Noise 与 Flow-SDE 双算法 + 并行仿真训练" 的创新框架,打破了这一僵局:既解决 了流式 VLA 模型的 RL 适配难题,又通过在线交互大幅提升模型性能与泛化性,最终在多任务基准测试中实现 "从 SFT 瓶颈到近满分性能" 的突破。 为什么要重新定义流式 VLA 模型的训练范式? 这些方案都忽略了一个关键:流式 VLA 模型(如 、 )凭借 " ...
招募世界模型&人形运控&数采相关的合作伙伴!
具身智能之心· 2025-11-02 04:00
最近后台收到很多同学关于具身世界模型、机器人运控、数采相关的内容咨询,确实是行业比较有价值的 方向,但又存在一定的门槛。 具身智能之心期望和领域大牛一起研发相关方向的课程或实战项目,为正在从事相关工作的同学提供更多 见解。 如果有大佬感兴趣,可以添加峰哥微信:oooops-life做进一步咨询。 合作内容 具身世界模型、运控、数采相关课程设计、PPT制作。 招募世界模型&人形运控&数采相关的合作伙伴! 待遇说明 高于行业水平的薪资和资源共享,可兼职,感兴趣的可以添加负责人微信做进一步沟通。 一些要求 正在从事具身领域研究的童鞋,我们期望您至少发表一篇ccf-a级别会议或有1年以上的工业界经验。 ...
国产GPU第一股IPO获批,募资80亿!
具身智能之心· 2025-11-01 16:03
Core Viewpoint - The article discusses the rapid progress of Moore Threads, a domestic GPU company, in its IPO process, highlighting its plans to raise 8 billion yuan for research and development, particularly in AI and graphics chips, while also noting significant revenue growth and a shift in business focus towards high-performance AI computing products [2][4][10]. Group 1: IPO Progress - Moore Threads' IPO registration application has been approved by the China Securities Regulatory Commission, marking it as the first domestic GPU company to achieve this milestone [2]. - The company submitted its prospectus on June 30 and received approval in just four months, indicating a swift process [3][17]. - The planned fundraising of 8 billion yuan will primarily support R&D projects, including AI training chips and graphics chips [4][5]. Group 2: Financial Performance - In the first half of the year, Moore Threads reported revenue of 702 million yuan, surpassing its total revenue for the entire year of 2024 [9]. - The net loss for the first half of the year was 271 million yuan, a significant improvement compared to the previous year, with management projecting potential profitability by 2027 [10]. - The company's revenue structure has shifted dramatically, with AI computing products contributing 94.85% of total revenue in the first half of the year, up from 71.44% in 2022 [12][13]. Group 3: Business Focus and Technology - Moore Threads has transitioned its strategic focus from desktop graphics products to high-performance AI computing, which has become the main revenue driver [11][12]. - The company operates on a Fabless model and has developed its own unified system architecture (MUSA) that integrates various computing capabilities into a single chip [21][22]. - The MUSA architecture supports AI acceleration, graphics rendering, and other computational tasks, with the company having launched four generations of GPU chips [24].
边缘设备上高效运行!NanoVLA :保留 VLA 模型的精度与泛化能力,推理速度提升 52 倍
具身智能之心· 2025-11-01 16:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiahong Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操控领域," 通用化 " 与 " 轻量化 " 的矛盾长期制约着技术落地——现有视觉-语言-动作(VLA)模型虽能实现复杂任务推理,但因参数量庞大、计算需求 高,难以部署在移动机器人、嵌入式系统(如 Jetson Orin Nano)等资源受限设备上。 而由英属哥伦比亚大学、阿尔伯塔大学与小米汽车团队联合提出的 NanoVLA ,用 " 视觉-语言解耦融合+长短动作分块+动态路由 " 的创新架构,彻底打破这一困 境:既保留通用 VLA 模型的任务精度与泛化能力,又将推理速度提升 52 倍、参数量压缩 98%,首次实现 "在边缘设备上高效运行通用机器人策略" 的目标。 为什么要重构 VLA 模型的边缘部署逻辑? 当前主流 VLA 模型陷入 "性能与效率不可兼得" 的困境:为实现跨任务泛化,模型通常依赖数十亿参 ...
单张4090跑到30fps,范浩强团队让VLA实时跑起来了
具身智能之心· 2025-11-01 16:03
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 具体而言,对于常用的 Pi0 级别的模型(30 亿参数),在单张消费级显卡 RTX 4090 上最快可以跑到 30fps。这和大家对于 VLA 模型动辄要几十甚至上百毫秒的 刻板印象形成鲜明对比。 为实现这点,研究者深入分析 Pi0 的模型结构,通过一系列优化把用时从开始的 100+ ms 进行数倍缩减(针对双视角,甚至已经达到 27ms),显著强于 openpi 里采用的基于 jax 的自动优化的结果。 此外,研究者基于现有结果探讨了未来的"实时"运行的 VLA 结构,设计出一个有潜力最高实现 480Hz 闭环控制的算法框架。目前,优化后的代码已在 GitHub 开 源,全部实现均打包为一个只依赖于 torch 和 triton 的单一文件,大家可在自己的项目里 "开箱即用"。这是 Dexmal 原力灵机 继 开源一站式 VLA 工具箱 Dexbotic 之后的又一开源代码工作。 解决什么痛点? 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 ...
走路、擦板、端盘都不抖!SEEC框架:人形机器人也懂"物理补偿"
具身智能之心· 2025-11-01 16:03
具身智能研究室 . 我们是一群AI探险家,聚焦智能体与具身智能的知识分享。在这里,您将获得:✓ 精选论文解读 ✓ 核心算法抽丝剥茧 ✓ 前沿技术动态速递 。期待与每 一位好奇的您,共同构建AI的未来图景。 作者丨 小智 编辑丨具身智能实验室 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 以下文章来源于具身智能研究室 ,作者小智 核心思路与创新点 小编观点 SEEC 框架用一次"模型增强残差学习",让机器人在走路、擦板、端盘时都能稳如老狗。 SEEC 不是去硬控姿态,而是让上肢策略学会 自动抵消下肢扰动 。把模型推导的加速度补偿信号蒸馏进 RL 策 略,让"学习"与"物理"共同决策,从而在真实 Booster-T1 上实现 零额外训练的稳健上肢控制 项目主页: https://zhuoheng0910.github.io/seec-humanoid.github.io/ 论文核心思路 SEEC 框架将人形机器人控制器解耦为上下两层: 下层: 负责步态稳 ...