Workflow
具身智能之心
icon
Search documents
具身智能的数据困境?简智正以闭环飞轮推进解决
具身智能之心· 2025-12-17 10:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 "模仿学习(如看视频)必要,但真正掌握技能,真机数据是关键。" 香港大学李弘扬近期在多场具身智能行 业论坛上的发言,精准戳中了赛道发展的核心痛点。这一观点在行业内已形成广泛共识——智源研究院院长 王仲远就曾直言, "数据,尤其是高质量的数据,决定模型能力的上限" ,而当前具身智能最突出的困境正是 高质量真机数据的极度匮乏。2025年,具身智能融资热度飙升、政策持续加码,可数据基建的滞后却成了行 业规模化落地的"绊脚石"。做过具身智能研究的人都清楚, 真机数据稀缺、采集效率低下、处理链路冗长 , 这些问题足以让多数企业陷入"巧妇难为无米之炊"的困境。 这片蓝海市场中, 简智机器人 在赛道中逐渐崭露头角。作为专注于 具身智能全链路解决方案 的科技企业, 其核心理念是"具身智能源于人、回归人",并凭借全栈自研的"产品+产线"双轨战略,搭建起 "人类技能数字 化 - 云端AI数据治理 - 机器人应用"的完整闭环。 行业痛点如何破解?简智给出了自己的答案 自变量机器人 CTO 王昊曾直言,具身智能领域正面临显著的"数据困境"。在行业内,Aloha设备已是常见的真 机采 ...
支持pi0与pi0.5部署!现在又适配了Lerobot框架了
具身智能之心· 2025-12-17 03:50
想让算法快速落地实战的同学,不妨了解一下我们这款机械臂! 从识别抓取,到稳定搬运,再到对准放置,每一步都见证了算法的持续迭代与机械臂执行表现的稳定性。 让科研更贴近实战,让想法更快得到验证。Imeta-Y1与你一同进步,在具身智能的道路上,走得更稳、更 远。 面向具身科研领域打造的轻量级高性价比机械臂 还在为具身智能领域的硬件选择发愁吗? 成功适配Lerobot啦~ 新手也能轻松解锁的精准实操! 继打通pi0与pi0.5任务后,Imeta-Y1轻量级机械臂现已适配Lerobot ,成功 实现夹取方块精准放入胶带圈的流畅操作,配套代码也将正式开源! 太贵的机械臂买不起,太便宜的又难用、难上手? 别担心,Imeta-Y1 来了——这是一款专为新手和科研初学者设计的轻量级高性价比机械臂。 无论你是学生、教育工作者,还是刚踏入机器人领域的开发者,Imeta-Y1 都能帮你低成本、高效率地完成 算法验证与项目开发。 对小白尤其友好的是: ✅ 提供全流程开源工具链+代码示例,从数据采集到模型部署一气呵成; ✅ 支持 Python / C++ 双语言接口,无论你擅长哪种语言都能快速上手; ✅ 兼容 ROS1 / ROS2, ...
最近具身界的一些进展......
具身智能之心· 2025-12-17 03:50
最近在具身社区内分享了很多行业的内容,包括一些企业投融资、量产、产品设计、模型泛化、部署等。 ★ 融资上:下半年,除了一些明星公司外,本体零部件公司融资金额增大、公司数量增多; ★ 量产上:多家公司的试点开始慢慢推,很多创业公司带着订单来融资,头部人形机器人开始探索工业 级产品的部署; ★ 产品设计上:本体上机械臂产品逐渐收敛,移动操作和人形还在结构和尺寸上创新,各家也都在压低 成本,供应链管理的能力很大程度上决定了后期的竞争力。头部具身公司,在积极参与投资零部件供 应商。一些多形态机器人,正在慢慢出现在各类场景中...... ★ 模型泛化上:基于RL的优化思路,使得模型逐渐泛化能力增强。相关的工具箱也逐渐完善,真机部署 逐渐便利。 ★ 部署上,地瓜机器人推出S600,助力边缘侧部署。thor开始应用在人形机器人、移动操作上。2000T以 上算力逐渐成参考配置...... 最近社区内也在积极筹划研报,我们也很欢迎需要入门/进阶具身领域的同学加入我们的社区。近一年的搭 建,社区内已经完成了技术路线分享、直播、问答、求职、赛事等多个版块的分享。这里实现了产业、学 术、求职、问答交流等多个领域的闭环。我们致力于为行 ...
统一视觉多模态!港科大团队发布视频生成模型,加速真实世界理解
具身智能之心· 2025-12-17 00:05
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 下面是更多详细内容。 不仅能"听懂"物体的颜色纹理,还能"理解"深度图、人体姿态、运动轨迹…… 统一多模态多任务的视频生成模型来了。 来自港科大、港中文、清华大学和快手可灵的研究团队,最近提出了一个全新视觉框架—— UnityVideo 。 不仅模型生成质量更高,它还实现了 零样本泛化 ,对于从未见过的物体或场景,也能生成合理结果。 它通过统一训练多种视觉模态 (如深度图、光流、骨骼、分割掩码等) ,让模型更懂物理世界规律,生成的视频更真实、更可控。 从文本大模型到视觉大模型 当回顾大语言模型 (LLMs) 的发展历程时,会发现一个有趣的现象: GPT、Claude等模型之所以拥有强大的泛化和推理能力,很大程度上得益于它们统一训练了多种文本子模态——自然语言、代码、数学表达 式等。 这种多模态统一训练使模型能够在不同领域之间进行知识迁移,从而涌现出惊人的推理能力。 那么,视觉领域是否也存在同样的 ...
近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心· 2025-12-17 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Chao Xu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 这篇综述对视觉 - 语言 - 动作(VLA)模型进行了全面剖析,是该领域极具价值的导航指南。核心结论是:VLA 模型正推动机器人技术变革,其发展遵循 "基础模 块→历史里程碑→核心挑战" 的逻辑,五大核心挑战(表征、执行、泛化、安全、数据与评估)是当前研究的关键突破口,相关结构与关键信息可通过文中图表直 观呈现。 核心定位与结构设计 文章以研究者的自然学习路径为框架,从基础到前沿层层递进,既适合新手入门,也为资深研究者提供方向。 基础模块:VLA 模型的核心构成 VLA 系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势,各模块的关键技术选型与代表模型可参考相关数据集与里程碑表格。 论文标题 :An Anatomy of Vision-Language-Action Models: From Modules ...
56倍加速生成式策略:EfficientFlow,迈向高效具身智能
具身智能之心· 2025-12-17 00:05
点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 本文共同第一作者为西安交通大学硕士生常建磊和博士生梅若风。柯炜为西安交通大学副教授。论文通讯作者为西安交通大学教授许翔宇,其研究方向涵盖三维 视觉、生成式 AI 与具身智能(个人主页:https://xuxy09.github.io/)。 生成式模型正在成为机器人和具身智能领域的重要范式,它能够从高维视觉观测中直接生成复杂、灵活的动作策略,在操作、抓取等任务中表现亮眼。但在真实 系统中,这类方法仍面临两大「硬伤」: 一是训练极度依赖大规模演示数据,二是推理阶段需要大量迭代,动作生成太慢,难以实时控制。 针对这一核心瓶颈,西安交通大学研究团队提出了全新的生成式策略学习方法 EfficientFlow 。该方法通过将 等变建模与高效流匹配(Flow Matching)深度融合 , 在显著提升数据效率的同时,大幅压缩推理所需的迭代步数 ,在多个机器人操作基准上实现了 SOTA 的性能,并将推理速度提升一个数量级以上。 ...
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 00:05
【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到CCF-C 先看看具身的一些方向,vln、vla、强化、还有一些real2sim2real。很多小白不知道如何下手,选择强化学 习还是vla?传统slam还是vln?哪些方向需要较大算力,哪些不需要?除此之外,什么样的本体适合自己研 究,预算不够怎么办?仿真可以吗? 对正在从事slam的同学,vln和vla都是一个比较好的切入方向。如果有机械臂,展开vla是一个不错的选择。 除此之外,没有硬件的同学可以尽量在仿真里面或者使用低成本的so-100等硬件完成实验。也有很多低成 本的科研平台,比如移动操作平台。四足和人形更适合强化,vla难度过高。 剩下就是一些方法论的问题了,有好的idea至关重要。对很多新人研究者,一个好的idea需要踩很多次坑。 如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了 最近收到很多小伙伴的咨询,其中不乏大模型、传统机器人、机械方向的同学。 ✅ 顶会/顶刊 ...
具身的半壁江山都在VLA了......
具身智能之心· 2025-12-16 09:25
Core Viewpoint - The article emphasizes the increasing demand for VLA (Variable Learning Algorithm) in the industry, highlighting the challenges associated with data collection and model training, and the need for practical learning resources in this field [1][2][3]. Group 1: VLA Demand and Challenges - There is a significant demand for VLA algorithms in job postings, indicating a growing interest in this technology [1]. - Many practitioners express frustration with the difficulties in tuning VLA algorithms and the complexities of data collection [2]. - The reliance on real machine data for effective VLA model training poses challenges, as many companies struggle with the quality of the collected data [3]. Group 2: VLA Implementation Modules - The implementation of VLA involves several key modules, including data collection methods based on imitation learning and reinforcement learning [8]. - Training VLA models typically requires simulation debugging, especially when real machine data is insufficient, making simulation frameworks like Mujoco and Isaac Gym crucial [9]. - After training, VLA models often require optimization techniques such as quantization and distillation to reduce model size while maintaining performance [10]. Group 3: Educational Resources and Courses - The article introduces a practical course aimed at helping individuals learn VLA effectively, addressing the rapid updates in technology and the challenges faced by learners [11]. - The course covers a comprehensive curriculum, including mechanical arm hardware, data collection, VLA algorithms, evaluation, simulation, and deployment [16][17]. - Participants will receive hands-on experience with real hardware, enhancing their learning and practical skills in the VLA domain [28].
NBA球星,成为英伟达副总裁
具身智能之心· 2025-12-16 00:02
编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 【导读】 一家市值世界第一的5万亿美元公司,CEO亲自带36位高管,同时不安排固定一对一,敢这样管事的人不多。英伟达的一份内部名单显 示,黄仁勋的直管团队从去年的55人缩至36人,这背后是信息直达与效率极限的博弈。本文用一张「组织透视镜」,带你看清这36人的角色分工、 黄仁勋的管理逻辑,以及它对AI时代公司的启发。 当身高近两米的前NBA球星霍华德·赖特(Howard Wright)推开英伟达的会议室门,他不再是篮下护框者,而是黄仁勋麾下扶持全球1.9万家初创的 Inception负责人——同事们戏称的「最强壮的投资人」。 从球场到高通、英特尔、AWS,再到英伟达,这条跨界轨迹正是这家公司高管群像的缩影:出身各异,却被拉上同一条信息高速路,直接连到CEO。 在英伟达,这条高速路有一个激进的设置:黄仁勋以扁平化直管36位高管,鼎盛时甚至多达55位,规模远超硅谷常规。 黄仁勋 笃信「信息即权力」,每 ...
UniBYD:超越人类示教模仿的跨实体机器人操作学习统一框架
具身智能之心· 2025-12-16 00:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 在嵌入式智能领域,从人类演示中学习机器人操作是主流范式,但人类手部与不同形态机器人手(如2指、3指、5指)之间的 形态差异鸿沟 ,成为技术落地的核心 障碍: UniBYD核心目标是构建一种学习范式:突破单纯的人类动作模仿,让机器人自主发现与自身物理特性匹配的操作策略,实现跨形态机器人手的高效泛化。 核心创新:UniBYD框架设计 UniBYD是一套统一的强化学习框架,通过 统一形态表示、动态强化学习机制、精细模仿引导 三大核心组件,实现从模仿到探索的平滑过渡,最终学到适配机器人 形态的操作策略(figure2)。 作者丨 Tingyu Yuan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 统一形态表示(UMR):跨形态建模的基础 为解决不同机器人手形态(自由度、手指数量、刚体数量)的建模差异,UMR将动态状态与静态属性统一为固定维度表示: 动态状态处理 :手腕状态固定为 ...