Workflow
具身智能之心
icon
Search documents
全球AI失业大逃杀:25年已裁94000人!微软高管:被裁可用AI管理情绪
具身智能之心· 2025-07-06 11:54
点击下方 卡片 ,关注" 具身智能之心 "公众号 编辑丨 新智元 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 灾难前兆,再一次预警。就在最近,微软又裁掉了9000人,最黑色幽默的是,Xbox一 位高管甚至建议被裁员工用AI来疗伤?虽然2025年才过了一半,但全美科技行业中已有94000人 被裁,接下来这个数字恐怕只会越来越多。 AI导致的全球失业潮,已经开始拉开帷幕。 灾难的号角,已经吹响了。 最近,微软又一次曝出新一轮的9000人大裁员,背后不知是多少人的血泪。 就在刚刚,国外一个媒体发布博文,总结出了最新统计数据—— 2025年才过了一半,AI已经取代了94000名科技工作者,导致他们直接失业! 你以为,这仅仅是像以前一样的成本节约措施吗? 不,这一次,或许跟以前都不一样。这一次,很多企业为了配合自己的AI战略,正在悄悄调整自己的 劳动力结构。 一方面,某些人类的岗位因为被AI替代,而直接消失;另一方面,很多职位被削减,目的就是为了企 业能有更多支出,流向AI工程、基础设施和研究。 ...
怎么在仿真里面让人形机器人、四足机械狗跑起来?
具身智能之心· 2025-07-06 11:54
具身机器人最重要的执行控制 然而足式机器人的控制与学习涉及的内容非常多,涉及运动学、动力学、多传感器融合、步态控制、强 化学习、模仿学习、仿真等方向,内容众多。很多小白根本不知道怎么入门,没有完整的学习体系,将 会处处踩坑,久久不能入门,导致最终放弃学习,错失了机会。为此,我们联合行业知名机器人专家, 出品了国内首门《从四足到双足的全栈算法》教程。旨在解决大家入门难,优化进阶难的问题!什么有 价值我们就教什么! 国内首个具身足式算法与实战课程 我们联合业内知名足式机器人专家展开了国内首个具身足式算法与实战教程! 本课程面向想要深入足式机器人领域的学习者,系统讲解从 四足 到 双足 再到更 高级算法 的全流程技 术栈。结合真实应用案例,配合仿真环境 (Isaac Gym/Gazebo/MuJoCo),课程核心内容如下: 说到具身智能机器人,无论是人形还是四足,都离不开的一个重要任务是步态控制,这也是迈向通用具 身必须要攻克的难关。机器人依靠双足或四足来完成空间上的移动,近20年来,工业界和学术界一直在 投入人力和物力对人形机器人的步态进行研究,力图更接近真实动物和人类的动作。在救援场景中,如 地震后的废墟、火灾 ...
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 11:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 11:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiahui Zhang等 以 OpenVLA 为代表的主流方法,仅使用 单帧 RGB 图像 + 文本指令 作为条件来拟合动作分布 。这 种极简输入导致目标分布呈现两类混乱: 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Teaser 在 VLA pretrain 中,单帧 RGB + 文本的传统输入往往缺失关键时空线索,导致坐标系混乱与状态模糊——即同 一观测下可能对应多种动作分布, 显著拉低预训练效率 。为破解这一瓶颈,我们提出 4D-VLA:通过将3D 空间 + 历史帧融入预训练输入,从而抑制混乱分布,提升模型在复杂场景中的performance。 Insight 如何从多源机器人数据中高效提取可迁移的运动知识 ,仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能,但 输入信息的不完整与不一致 严重削弱了预训 练的效果。 ...
具身什么时候可以交卷?哪些产品会率先落地?
具身智能之心· 2025-07-05 10:31
具身这个产业什么时候可以交卷呢?哪些产品会率先落地?2025年最火的莫过于人形机器人,也 是资本一直重点关注的本体。但产业落地,人形机器人能保证场景稳定部署吗?其实想一下,如 果一台人形机器人走路还不是很稳定,一旦摔倒、绊倒,会对本体有很大的伤害,在数据和算法 没有非常稳定前,B端和C端绝不敢大规模尝试。毕竟维修费用也是非常贵的,时间成本也比较 高,责任归属就有点说不清楚了。 相比之下,移动操作+机械臂反而更容易落地,比如银河通用的G1,在服务领域、家居、超市等场 景,表现出较好应用。 以及智元在工业领域应用的远征A2-W,较稳定的底盘能够保证较大的负载,保证工业施工的需 求。 除了本体,数据层面上亟需一个大规模数据来做基础模型的预训练。具体场景的数据采集效率和 质量也非常重要,这决定了是否可以上scale。sim2real方案解决了数据难采、数据贵的问题,但迁 移到真实场景如何保证性能也是领域非常关注的点,这个还在不断的去突破。 以上是我们在具身智能之心知识星球中的分享,更多干货欢迎扫码加入,和近200家具身公司、研 究机构成员一起交流! 星球内部整理了许多为小白入门的技术栈和路线。 已经从事相关研究的同学 ...
秋招快要开启了!哪里可以找到具身相关的面经和题目啊?
具身智能之心· 2025-07-05 09:42
最近有同学后台留言,马上秋招了,没时间自己准备了。去哪里找寻题目、面经、和各家面试题 目?各个岗位是啥情况?都有哪些面试流程?各家岗位的级别是怎么划分的?对于刚求职的小 白,这些非常重要,关乎后面3-5年的职业发展与成长。 每年到这个时候,我们都有收到类似的问题,而我们早已经为大家准备好了。做了3年多的技术自 媒体,我们一直想给大家这样一个平台,让需要就业的同学能够快速匹配到自己的岗位,事半功 倍!近半年的筹划,我们推出了AutoRobo知识星球,一个覆盖机器人、自动驾驶、具身智能方向 的求职社区!这也是国内首个以自动驾驶和具身为主要方向的社区。 AutoRobo知识星球 这是一个给自动驾驶、具身智能、机器人方向同学求职交流的地方,目前近1000名成员了,成员 范围包含已经工作的社招同学,如地平线、理想汽车、华为、小米汽车、momenta、元戎启行等公 司。同时也包含2024年秋招、2025年秋招的小伙伴,方向涉及自动驾驶与具身智能绝大领域。 星球内部有哪些内容?这一点结合我们已有的优势,给大家汇总了面试题目、面经、行业研报、 谈薪技巧、还有各类内推公司、简历优化建议服务。 招聘信息 星球内部日常为大家分享已 ...
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 02:25
随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。我们联合业界知名大模型专家,为大家退出了大模型1v6论文辅导小班课! ⼀、有关大模型核心的几个点⭐ 本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键 技术。我们将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法; 在知识扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方 面,研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多 模态理解等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、 ...
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 12:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 GianlucaMonaci 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 图像目标导航(Image goal navigation)需要两种关键能力:一是核心导航技能,包括检测自由空间、障碍物 及基于内部表征做决策;二是通过比较视觉观察与目标图像计算方向信息。当前主流方法要么依赖专门的图 像匹配,要么预训练计算机视觉模块进行相对位姿估计。 研究聚焦于一个关键问题:该任务能否如近期研究所说,通过强化学习(RL)对完整智能体进行端到端训 练来高效解决?若答案为肯定,其影响将超出具身AI领域,有望仅通过导航奖励来训练相对位姿估计模型。 核心研究内容与方法 关键架构选择 研究探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算,这对提取方向信息 至关重要。主要架构包括(figure 2): 实验设计 Late Fusion :分别编码观察图像和目标图像 ...
ArtGS:3DGS实现关节目标精准操控,仿真/实物双验证性能SOTA!
具身智能之心· 2025-07-04 09:48
扫描下方 卡片 ,关注" 具身智能 之心 "知识星球 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与出发点 关节目标操作是机器人领域的关键挑战,核心难点在于复杂的运动学约束和现有方法有限的物理推理能 力。传统方法中,端到端强化学习或模仿学习需要大量试错或演示数据,却常因缺乏物理知识(尤其是关 节运动学)导致动作违反约束,最终失败;而3D视觉方法(如GAMMA、RPMArt)虽能构建关节模型,但 点云固有的稀疏性和无序性,以及时间一致性不足,仍带来诸多挑战。 为此,提出ArtGS框架——通过扩展3D高斯溅射(3DGS),整合视觉-物理建模,实现关节目标的理解与交 互。其核心是利用动态、可微分的3DGS渲染,优化关节骨骼参数,保证物理一致性运动约束,提升操作策 略性能。 | cost; | -sint;cosß; | sinθ;sinß; | a;cosθ; | | --- | --- | --- | --- | | sinθ; | cost;cosB ...
传统导航和具身目标导航到底有啥区别?
具身智能之心· 2025-07-04 09:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而 基于大模型方案的导航又分为视觉语言导航和目标导航! 策略网络的学习过去集中在如何从标注的数据集中提取模式,数据增⼴在其中起到了关键作用。如今, LLM拥有了强大的先验知识,如何从中蒸馏有效的规划信息,成为了近期研究的热点。 再来看看目标导航 VLN更进⼀步,是目标导航任务(Object Navigation),目标导航要求智能体在陌生的三维环境中,仅凭目 标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与路径规划。 如果说一句话说明这两个任务的区别,视觉语言导航是""听懂指令走对路",目标导航是""看懂世界自己找 路"。 视觉语言导航是什么? 视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运 动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块 构成。 机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。 采用怎样的编码器,视觉和语言 ...