Workflow
具身智能之心
icon
Search documents
我们正在找具身领域的合伙人......
具身智能之心· 2025-09-09 04:00
最近收到越来越多合作伙伴和中小公司的诉求,期望具身智能之心团队能够在方案和数采、技术升级、 企业培训等多个方向上赋能。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,要推动大的行业进步,需要更多优 秀的伙伴加入我们。 现面向全球的具身领域从业者发出邀请函,具身智能之心期望能够和您在技术服务、培训、课程开发与 科研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 主要方向 包括但不限于:VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态 大模型、仿真、运动控制、端到端、3D感知等多个方向。 岗位说明 主要面向具身方案研发、硬件研发、培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多 学生、求职类人群)。 联系我们 感兴趣的可以添加微信oooops-life做进一步咨询。 ...
VLA与强化学习技术交流群来啦!
具身智能之心· 2025-09-09 04:00
添加小助理微信AIDriver005进群,备注: 强化学习/VLA+加群+昵称。 具身智能之心VLA和强化学习交流群来啦!欢迎正在做四足、人形、机械臂相关运控的同学加入!我 们旨在为行业搭建一个技术交流与分享的平台。 ...
花了很长时间,汇总了大模型相关的技术栈......
具身智能之心· 2025-09-09 04:00
从今年上半年具身VLA、自驾VLA/VLM这些方向大火以来,很多同学都对大模型这个领域感兴趣,咨询我 们一些前沿大模型技术的学习路线。我和峰哥也商量了一下,决定把大模型的社区做起来。筹备了半年时 间,今天也终于和大家见面了~ 大模型技术是诸多前沿领域发展的基础。最具代表性的是RAG和AI Agent,企业对掌握 RAG、Agent 等技 术的人才需求高涨,这些技能已成为 AI 从业者的核心竞争力。算法开发、工具链开发、后端、产品经理、 架构师等等相关岗位需求非常旺盛,算法核心岗位的年薪更是一骑绝尘! 开源大模型生态为学习者提供了绝佳机会。国外有Meta的LLaMA 3;国内有DeepSeek采用完全开源模式, 其衍生项目已经超过800个,通义千问衍生模型数破10万,居世界第一。开源不仅降低研发门槛,还促进技 术共享与创新,让开发者能在现有基础上快速迭代。 学习大模型也是适应大趋势的必然。『大模型之心Tech知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的大模型社区。我们期望未来2年内做到近万人的规模。给大家打造一个交 流+技术分享的聚集地,是许多初学者和进阶的同学经常 ...
国产具身AI平台来了!这家公司让具身AI真正从“虚拟走进现实”
具身智能之心· 2025-09-09 00:03
在具身AI技术加速发展的当下,智能机器人正逐步从实验室走向实际应用场景。从家庭扫地机器人到工业装配臂,从仓储物流搬运到医疗护理,机器人 应用边界持续拓展。尤其随着大模型技术突破,机器人的环境理解与任务执行能力显著提升,在复杂家庭服务、高精度工业生产中展现出巨大潜力。 然而,具身AI要实现规模化商用部署,仍需突破三大核心挑战: 1. 缺乏高性能低延时底层操作系统 :现有解决方案在实时性、稳定性上存在短板,限制复杂任务执行与多机器人协同部署。 2. 高质量训练数据稀缺 :传统人工演示、遥操作数据采集效率低、成本高,难以覆盖现实世界复杂多变场景; 3. 验证测试成本高昂 :真实环境中测试机器人算法耗时久,且存在安全风险,单次失败可能导致设备损坏、人员受伤; 长期以来,ROS(机器人操作系统)是机器人研发的主流工具,为开发者提供消息通信、传感器与算法集成、机器人建模仿真等功能,助力快速搭建系 统、验证功能。但在工程化与大规模应用中,ROS存在 实时性不足、通信开销大、安全性欠缺 等问题,无法满足高性能、低延时的具身AI场景需求。 在此背景下,Dora(Dataflow Oriented Robotics Archit ...
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-09 00:03
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在多模态大模型的基座上, 视觉 - 语言 - 动作(Visual-Language-Action, VLA) 模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。然 而, 现有 VLA 基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练 (Post-Training),特别是当目标场 景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了 VLA 模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训 练阶段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。 为了解决该问题, 中国电信人工智能研究院( TeleAl )具身智能团队 提出了 一种 " 对齐 - 引导 - 泛化"(Align then Steer, ATE)的 VLA 跨本体泛化框 ...
面向VLA方向的1v6科研论文辅导小班课来啦~
具身智能之心· 2025-09-09 00:03
VLA科研背景与介绍 VLA,Vision-Language-Action模型,是具身智能领域的新范式,从给定的语言指令和视觉信号,直接生成出机 器人可执行的动作。这种范式打破了以往只能在单个任务上训练大的局限性,提供了机器人模型往更加通用,场 景更加泛化的方向发展。VLA模型在学术界和工业界的重要性主要体现在其将视觉信息、语言指令和行动决策 有效整合,显著提升了机器人对复杂环境的理解和适应能力。 VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境,广 泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发展,如 pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性体现在能 够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用 价值,成为智能机器人领域的关键驱动力。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积 ...
花了很久,才整理的具身学习路线......
具身智能之心· 2025-09-08 04:00
因为一直在做具身自媒体,后面也帮他分析了目前我们了解到的具身从业同学,主要有几类:自驾出身、大模型出身(硬件接触 少)、传统机器人领域(算法接触少)还有其他像机械、通信等没有完整技术闭环的在校同学。毕竟是一个新的方向,虽然行业发展 很快,但培养没跟上,好多入门的同学都是野路子。这也不怪他们,毕竟很多老师转向也没那么快。 根因就是没有系统的培养体系,导致这方面的人才出现了数量和质量的不足。前面我们在社区内给大家梳理了很多具身技术子领域的 学习路线,大家可以好好学习下,助力成为一个真正懂具身的从业者。如果您还不是我们的成员,欢迎加入我们,和近200家具身公 司与机构成员一起交流。 上周六去杨浦见了一个朋友,正在某头部具身公司担任算法负责人。没聊技术,就聊了Unitree上市的消息,和吐槽组内的同学不够专 业,需要帮着处理很多问题。 "具身智能之心知识星球"是我们一直在维护的具身社区,目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的 具身社区,近2000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同 学经常逛的地方。 社区内部经 ...
IROS 2025 | 走向物理智能,“桃源”与真实世界机器人学习挑战赛启动
具身智能之心· 2025-09-08 00:03
Core Viewpoint - The Shanghai Artificial Intelligence Laboratory is hosting a multimodal robot learning workshop during the IROS 2025 conference, aiming to bridge the gap between simulation and real-world applications in embodied intelligence [1][19]. Event Overview - The "IROS 2025" event includes a real-world robot learning challenge, inviting global innovators to participate [1]. - The challenge features two main tracks focused on operational and navigation tasks for embodied intelligence [1]. Challenge Details - Track 1 involves creating a multimodal robotic operating system capable of understanding and executing language commands in an open desktop environment [6]. - Track 2 focuses on developing a multimodal mobile robot navigation system that can interpret language instructions and navigate in real physical environments [9]. Rewards and Recognition - The winning team will receive a cash prize of 70,000 RMB, with opportunities to showcase their algorithms at the IROS Workshop and engage with top experts in the field [2][18]. - Total prize value is nearly 1 million RMB, including cash, prizes, and vouchers for robots [18]. Schedule - Key dates include the start of registration on July 25, testing server launch on July 30, submission deadline on September 30, and the offline challenge on October 18, culminating in the award ceremony on October 20 [18].
具身性在移动操作机器人直观全身遥操作中的作用与性能评估
具身智能之心· 2025-09-08 00:03
Core Insights - The article focuses on the exploration of teleoperation in mobile manipulation robots, emphasizing the need for high-quality datasets in dynamic environments, which are currently lacking [3][4] - It aims to balance three key factors: embodiment, cognitive load, and task efficiency in long-term manipulation tasks [3] Research Background - Existing datasets primarily focus on fixed-base robotic arms, limiting the applicability to stable workspaces [3] - The study addresses the complexities introduced by mobility, which increases the cognitive load on operators and necessitates effective feedback mechanisms [3] Related Work Review - Previous research has mainly optimized short-term tasks, neglecting long-term manipulation scenarios [4] - The study differentiates itself by evaluating the combined effects of control paradigms and feedback modalities on operator experience in high cognitive demand tasks [4] Teleoperation System Design - The teleoperation system utilizes the PAL Tiago++ robot and HTC Vive Pro VR equipment, testing four interface combinations [5] Controller Embodiment Schemes - Two types of controllers are analyzed: - Decoupled embodiment controller (SBC) allows independent control of base and arm movements [6] - Coupled embodiment controller (WBC) integrates full-body control with a focus on task space dynamics [6] Feedback Modalities - The study examines how operators perceive the robot's view through different feedback modalities, including immersive VR and traditional screens [7] User Research Design - The research employs a mixed design to quantify the impact of different interface combinations on operator performance and experience [9] Assessment Metrics - Metrics include usability, workload, performance, and ergonomics, covering task performance and operator experience comprehensively [15] Key Findings - Feedback modality and controller type significantly affect task completion time, with VR increasing completion time by 142 seconds [19] - Success rates remained high across conditions, indicating that VR does not compromise task quality despite longer completion times [19] - Usability scores were lower in VR, with SBC showing slightly better usability than WBC [20][22] - Workload was notably higher in VR, with SBC leading to greater physical demand and WBC causing more frustration [23] - Ergonomic assessments indicated moderate risk during long-term operations, with WBC showing greater variability in physical demand [26] VR-Specific Analysis - SBC users relied more on head camera perspectives in VR, while VR-induced dizziness was noted in real scenarios [32]
具身智能之心遥操作技术交流群来了!
具身智能之心· 2025-09-08 00:03
具身智能之心遥操作技术交流群来了!欢迎相关方向的同学加入一起交流。 添加小助理微信AIDriver005,备注昵称+机构+遥操加群,可以第一时间进群。 ...