具身智能之心
Search documents
空间智能终极挑战MMSI-Video-Bench来了
具身智能之心· 2026-01-06 00:32
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 "通用型智能助手" 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依 赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。 要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信 息做出合理决策,与环境产生有效交互。 为此, 上海人工 智能 实 验室 Inter nRobotics 团队 近日推出了一套 全面而硬核的空间智能视频基准 —— MMSI-Video-Bench ,对当前主流多模态大模型精心打 造了一场挑战系数极高的 "空间智能大考"。 本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、 ...
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 00:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能领域,机器人操纵作为核心难题,随着视觉、语言及多模态学习的飞速发展迎来变革。大型基础模型的出现,大幅提升了机器人的感知与语义表征能 力,使其能在非结构化环境中基于自然语言指令完成任务。由西安交通大学、香港科技大学(广州)等多所高校联合撰写的综述,以 "高层规划 + 低层控制" 的统一 框架,系统梳理了基于学习的机器人操纵方法,明确了当前技术瓶颈与未来方向,为该领域的研究提供了全面且结构化的参考。 论文名称:Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives 论文链接:https://arxiv.org/pdf/2512.22983 项目链接:https://github.com/BaiShuangha ...
多家具身公司正在推进IPO......
具身智能之心· 2026-01-05 09:28
2025年11月15日,宇树科技IPO上市辅导工作完成,公告显示,宇树科技拟申请在境内IPO。中国证监会官网 的这一信息。 2)银河通用 2025年12月,多个媒体报道银河通用完成股改,开始筹赴港上市。 最近社区分享了几家正在IPO进程的公司,都在大考,还有许多公司正在排队准备了。这里为大家整理了下相 关内容,本次整理参考各类已经公开的内容,若有不足欢迎后台指正。 1)宇树科技 3)智元机器人 智元机器人于2025年3月完成股改,11月宣布拟赴港IPO。 2025年7月通过其持股平台计划收购科创板上市公司上纬新材63.62%的股份,被市场解读为"借壳上市"的关键 落子。尽管智元对外回应称"本次行动仅为收购控股权,不构成《重大资产重组办法》所定义的借壳上市", 但这一动作被业界视为加速上市进程的重要举措。 4)乐聚机器人 1)持续的直播分享 社区为大家准备了很多圆桌论坛、直播,从本体、数据到算法,各类各样,逐步为大家分享具身行业究竟在 发生什么?还有哪些问题待解决。 2025年10月30日,乐聚智能(深圳)股份有限公司在深圳证监局完成上市辅导备案登记,辅导券商为东方证 券。 5)云深处 2025年12月23日, ...
网传某头部具身公司上市“绿色通道”被叫停,当事人正式回应......
具身智能之心· 2026-01-05 03:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 转载丨澎湃新闻 本文只做学术分享,如有侵权,联系删文 宇树科技于2025年7月8日提交了辅导备案登记材料,由中信证券担任辅导机构; >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 近日,某媒体发布宇树科技上市相关报道,涉及"所谓绿色通道被叫停",并被众多媒体、网络平台及自媒体大规模转载。 昨日,宇树科技正式向相关新闻媒体回应。该报道涉及我司上市工作相关动态情况的内容与事实情况不符,我司未涉及申请"绿色通道"相关事宜。 相关报道误导公众认知,已严重侵害我司合法权益。我司已向主管部门反映,同时督促相关方撤回不实报道。我司在此严正声明,后续将保留通过法律手段追责的 权利。宇树科技表示,目前,公司上市工作正常推进,相关进展将依法依规进行披露,感谢社会各界对公司的关心与支持。 4日早些时候,有报道称,宇树科技A股上市的绿色通道被叫停,但常规上市流程仍继续,被叫停或是因为"目前机器人赛道泡沫太大了",管理层希望能降降温。 随后,一张疑似宇树科技创始人、董事长王兴兴 ...
全职/兼职/实习!具身智能之心招募运营、编辑和销售的同学了
具身智能之心· 2026-01-05 03:30
负责公众号、小红书、社群的运营,提升粉丝粘性和关注度。我们希望您有一定的运营能力,对自媒体平台的玩 法有一定认识。 咨询我们 负责日常公众号平台的内容创作、编辑,我们希望您具备一定的专业基础,在知乎、公众号等平台上具有内容创 作经验。 销售岗位 负责平台课程、硬件等产品的销售推广。我们希望您具备一定的销售基础,对具身用户需求与市场有一定的了 解。 运营岗位 具身智能之心是具身领域的优秀技术创作平台,为行业输出了大量的前沿技术、课程、行业概况、融资、产品、 政策等内容。 现平台正处于上升期,因业务需求,面向全体粉丝招募编辑、运营、销售岗位,和我们一起继续为领域创造价 值,全职+实习哦(实习除编辑岗位均需线下哦~) 编辑岗位 如果您有兴趣和我们一起成长,欢迎添加峰哥微信oooops-life ...
王鹤团队最新!解决VLA 模型缺乏精准几何信息的问题
具身智能之心· 2026-01-05 01:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,VLA模型通过端到端框架将视觉输入与语言指令映射为动作,实现了多样化技能学习。然而,现有 VLA 模型多依赖单视角 RGB 图像,缺乏精 准空间几何信息,难以满足高精度操纵需求。 由 Galbot、北京大学、香港大学等团队联合提出的 StereoVLA 模型 ,创新性地融合立体视觉的丰富几何线索,通过 "几何 - 语义特征提取 - 交互区域深度估计 - 多场景验证" 的技术体系,首次系统性解决了 VLA 模型空间感知不足的核心问题,为机器人精准操纵提供了全新解决方 案。 论文题目:StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision 项目链接:https://shengliangd.github.io/StereoVLA-Webpage 问题根源 ...
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法
具身智能之心· 2026-01-05 01:03
实验结果显示, 在不同剪枝比例下,FastDriveVLA 在 nuScenes 开环规划基准测试中均取得了 SOTA 性能 。FastDriveVLA 也非常高效,当视觉 token 数量从 3249 减少至 812 时,FastDriveVLA 的 FLOPs 直降约 7.5 倍;在 CUDA 推理延迟方面,FastDriveVLA 将预填充(prefill)时间减少了 3.7 倍、将解码(decode)时间减少 了 1.3 倍,显著提升了推理效率。 该篇论文被 AAAI 2026 录用。 编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自 动驾驶设计的,在自动驾驶场景中都具有局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文 《FastDrive ...
RoboMIND 2.0:面向通用化具身智能的大规模双臂移动操作数据集
具身智能之心· 2026-01-05 01:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 近期北京人形机器人和北京大学团队发布RoboMIND 2.0:一款面向通用化具身智能的大规模双臂移动操作数据集,通过整合 6 种异构机器人平台的 310K 轨迹 数据、多模态感知信息(含触觉)、高保真数字孪生资产及标准化标注体系,填补了现有数据集在双臂协调、移动操作、跨形态泛化等维度的空白。配套提出的 MIND-2 快慢双系统框架(高层 VLM 规划 + 低层 VLA 执行),基于离线强化学习融合成功与失败轨迹训练,在长时域复杂任务、多机器人协作场景中显著超 越传统模仿学习与现有 VLA 模型,为机器人通用化操作能力的提升提供了数据支撑与算法范式。 机器人操作领域的瓶颈和痛点 在机器人操作领域,数据驱动的模仿学习已成为突破传统控制局限的核心路径,但现有数据集与算法体系仍面临多重瓶颈,严重制约了机器人在真实场景中的通 用化部署: 1. 数据集维度单一,缺乏综合多样性 现有数据集多聚焦单一维度的多样性(如仅覆盖单一机器人形态、单一任务类型或单一环境),难以支撑跨场景、跨硬件的泛化学习。例如,多数主流数据集以 单臂固定基座操作数据为主,缺乏双臂协同、移动操作的大规 ...
半年交付5000台!这家公司开启了26年具身领域的首笔融资~
具身智能之心· 2026-01-05 01:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 具身智能全产业链企业智身科今日宣布完成连续多轮融资,累计金额达数亿元。本轮融资由智元机器人、贵 安鲲鹏基金,金马游乐、柯力股份、豪鹏科技等产业资本及上下游合作伙伴投资,获得了来自产业生态的高 度认可。 几家本体、传感器和电池领域的公司均参与投资,涵盖产业链的上下游,落地路线更清晰了。 25年具身领域大额融资络绎不绝。与其他公司不同的是,智身在26年官宣的"领域内开年第一融",其背后投 资方清一色为产业相关资本。本轮侧重于支持产业的升级和技术创新,提高产业的整体竞争力,推动技术的 创新与应用。 是什么让这家初创公司,在竞争日趋激烈的具身智能赛道,同时赢得产业资本的青睐和规模落地的验证?不做实 验室产品,我们希望能在自己擅长的领域落地,创始团队这样说。 智身科技:始于人形的四足机器人公司 杭州的宇树科技,可谓是率先开启了四足机器人的量产交付。同一个城市具有浙大背景的云深处也在该领域 不断发力。 在外界来看,杭州有六小龙,其中几家都是参与具身领域。浙江之外,也有一家以"四足机械狗"产品为特点的公 司:"智身 ...
王鹤团队最新工作!解决VLA 模型多依赖单视角图像,缺乏精准几何信息的问题
具身智能之心· 2026-01-04 08:58
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,VLA模型通过端到端框架将视觉输入与语言指令映射为动作,实现了多样化技能学习。然而,现有 VLA 模型多依赖单视角 RGB 图像,缺乏精 准空间几何信息,难以满足高精度操纵需求。 由 Galbot、北京大学、香港大学等团队联合提出的 StereoVLA 模型 ,创新性地融合立体视觉的丰富几何线索,通过 "几何 - 语义特征提取 - 交互区域深度估计 - 多场景验证" 的技术体系,首次系统性解决了 VLA 模型空间感知不足的核心问题,为机器人精准操纵提供了全新解决方 案。 论文题目:StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision 现有解决方案中,手腕相机视野有限且易遮挡、增加碰撞风险;深度传感器对透明或镜面物体测量噪声大;多相机配置则增加硬件 ...