Workflow
具身智能之心
icon
Search documents
比H20还要强大!英伟达最新B30A芯片曝光
具身智能之心· 2025-08-21 00:03
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 最新消息,英伟达正在开发新的AI芯片。 代号B30A,其性能要比H20型号更强大。 据路透社报道,该芯片基于最新最强Blackwell架构,将采用单芯片配置。 其原始算力可能仅为英伟达旗舰Blackwell架构B300 GPU双芯片配置的一半。 虽然芯片规格尚未完全确定,但是英伟达希望加班加点—— 下个月就开始交付测试 。 来看看更多细节。 英伟达最新AI芯片 新芯片采用的单芯片设计,是将所有主要组件集成在一块硅片上。 此外,它还具备与H20相似的功能,比如高带宽内存和NVLink技术,可实现处理器之间的快速数据传输。 该架构的芯片生产速度将相较之前快7到30倍。 今年6月,消息就爆出英伟达计划开发 名为"B30"的降规版AI芯片。它将首度支持多GPU扩展,允许用户通过连接多组芯片来打造更高性能的 计算集群。 英伟达在一封电子邮件声明中表示, 我们会根据我们的路线图来评估产品 。 我们提供 ...
Humanoid Occupancy:首个多模态人形机器人感知系统!解决运动学干扰和遮挡问题
具身智能之心· 2025-08-21 00:03
>>直播和内容获取转到 → 具身智能之心知识星球 点击下方 卡片 ,关注" 具身智能 之心 "公众号 点击按钮预约直播 人形机器人技术正在飞速发展,各大制造商纷纷推出针对特定场景、形态各异的异构视觉感知模块。在各种感知范式中,基于占用的表示(occupancy-based representation)已被广泛认为特别适合人形机器人,因为它能同时提供丰富的语义信息和三维几何信息,这对于全面理解环境至关重要。 本工作提出了 Humanoid Occupancy(人形机器人占用感知系统),这是一个 广义的多模态占用感知系统,它集成了硬件与软件组件、数据采集设备以及一套专用 的标注流程 。本文的框架采用先进的多模态融合技术,生成基于网格的占用输出(grid-based occupancy outputs),这些输出同时编码了空间占用状态和语义标签, 从而为任务规划与导航等下游任务提供了全面的环境理解能力。为应对人形机器人的独特挑战,本文克服了诸如运动学干扰(kinematic interference)和遮挡 (occlusion)等问题,并确立了一套有效的传感器布局策略。此外, 本文还开发了首个专为人形机器人设计 ...
X-SAM:统一图像分割多模态大模型,20+个数据集上均SoTA
具身智能之心· 2025-08-21 00:03
>> 点击进入→ 具身 智能之心 技术交流群 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型 等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。 背景与动机 Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。 多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用 化模型的发展。 中山大学、鹏城实验室、美团联合提出 X- SA M —— 一个统一的图像分割多模态大模型,将 分割范式从 「 分割万 物 」扩展到 「 任意分割 」 。X-SAM 引入了 统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了 视觉定位分割(V ...
港大&清华最新!仅通过少量演示,实现动态物体操作的强泛化能力!
具身智能之心· 2025-08-21 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhuoling Li等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 出发点与背景 动态物体操作(如传送带装配线上的产品处理)是提升工业制造效率的关键,但传统方法需针对不同场景进行专门设计,存在耗时、泛化能力弱等问题。模仿学 习通过专家演示训练机器人策略,是解决该问题的潜在方案,但现有方法依赖大量演示数据,而动态场景的演示收集成本极高。这里旨在探索:仅通过少量演 示,能否实现动态物体操作的强泛化能力? 工作的核心贡献 动态物体操作的挑战与现有方法局限 提出基于熵的理论框架,量化模仿学习的优化过程,指导低数据需求的泛化操作系统设计; 开发 GEM(Generalizable Entropy-based Manipulation)系统 ,结合目标中心几何感知与混合动作控制,实现动态物体操作的强泛化; 在真实场景(食堂餐具收集)中验证了GEM的有效性,无需现场演示即可实现97%以上的成功率 ...
宁波东方理工大学联培直博生招生!机器人操作/具身智能/机器人学习等方向
具身智能之心· 2025-08-20 04:00
宁波东方理工大学联合上海交通大学、中国科学技术大学招收机器人方向联培直博生。学生在上海交大 (或中科大)注册学籍,第一年在上海交大(或中科大)进行课程学习与科研工作,之后在东方理工从事 科研工作,双导师指导,毕业后获得上海交大(或中科大)颁发的博士学位和毕业证书。 导师:李晓聪,宁波东方理工大学助理教授(副研究员、博士生导师),同时兼任新加坡国立大学客座助 理教授(Adjunct Assistant Professor)及哈佛大学工程与应用科学学院客座研究员(Associate)。于2013年 和2017年分别获得新加坡国立大学学士学位和博士学位,曾任哈佛大学博士后以及新加坡科研局制造技术 研究院(SIMTech, A* STAR)科学家。主要研究方向为控制、学习与机器人交叉领域,并累计获得千万级 别的科研资助,以推动相关领域的研究发展。现担任国际期刊IEEE Transactions on Automation Science and Engineering (T-ASE) 和 IEEE Robotics & Automation Magazine (RAM) 副主编(Associate Editor)。 ...
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 00:03
编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 【导读】 英伟达发布全新架构9B模型,以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍,对标Qwen3-8B并在数学、代码、推理与长 上下文任务中表现持平或更优。 万万没想到,现在还紧跟我们的开源模型竟然是英伟达。 刚刚,英伟达发布了一个只有 9B大小 的 NVIDIA Nemotron Nano 2模型 。 对标的是业界标杆,千问的Qwen3-8B,但这个模型是一个完全不同的混合架构。 用英伟达的说法,这是一款革命性的 Mamba-Transformer 混合架构 语言模型。 在复杂推理基准测试中实现了和Qwen3-8B相当或更优的准确率,并且吞吐量 最高可达其 6倍 。 它的诞生只有一个目标: 在复杂的推理任务中, 实现无与伦比的 吞吐量 ,同时保持同级别模型中顶尖的精度! 在官网简单测试一下,一些 经典问题 ,都能答对。 英伟达还做了3个小工具,可以实时查天气、 ...
探究下VLA模型泛化差的原因......
具身智能之心· 2025-08-20 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 在大规模数据集(如 Open X-Embodiment,简称 OXE)上训练的通用机器人策略在各类任务中表现出较强性能。然而,它们往往难以超出训练数据的分布范围进行 泛化。 本文探究了这种泛化能力受限的根本原因, 发现捷径学习 —— 即对与任务无关特征的依赖 —— 是阻碍泛化的关键因素。 通过全面的理论与实证分析,我们揭示 了导致捷径学习的两个主要原因:(1) 单个子数据集内部多样性有限 ;(2) 子数据集之间存在显著的分布差异,进而导致数据集碎片化 。 这些问题源于 OXE 等大规模数据集的固有结构 —— 这类数据集通常由多个子数据集构成,而这些子数据集是在不同环境和机器人形态下独立收集的。 我们的研究结果为改进机器人数据集收集策略提供了重要见解,有助于减少捷径学习并提升通用机器人策略的泛化能力。此外,在获取新的大规模数据不切实际的 场景中,本文证实, 精心选择的机器人数据增强策略能够有效减少现有离线数据集中的捷径学习,从而提升通用机器人策略(如 )在仿真和真实环境中的泛化 能力 。 论文标题 : Shortcut Learning in Generali ...
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
具身智能之心· 2025-08-20 00:03
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 3DGS (3D Gaussian Splatting) 技术凭借在新视角合成与 3D 重建中实现的实时照片级真实感渲染,已成为研究热点。然而,现有方法在建模含动态物体的场景时精 度不足,常导致渲染图像出现伪影。 在最近的一项研究中,来自中山大学、深圳市未来智联网络研究院、港中深的研究者提出鲁棒性解决方案 RobustSplat,其核心设计包含两点:一是首创延迟高斯 生长策略,在允许高斯分裂 / 克隆前优先优化静态场景结构,从而减少优化初期对动态物体的过拟合;二是设计尺度级联掩码引导方法,先利用低分辨率特征相 似度监督进行可靠的初始动态掩码估计(借助其更强的语义一致性与抗噪声特性),再逐步过渡到高分辨率监督,以实现更精准的掩码预测。 研究动机 我们通过分析揭示了高斯致密化 (densification) 在 3D Gaussian Splatting 中的双重作用机制。具体来说,致密化过 ...
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
具身智能之心· 2025-08-20 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhichen Lou等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 1. 交互式探索能力不足,难以处理需要主动获取信息的场景(如确定哪个抽屉只放水果); 2. 感知精度有限,对物体空间关系和动态变化的捕捉不够结构化; 3. 计划适应性差,多为开环静态规划,无法基于实时反馈调整,易在复杂环境中失败(figure 1)。 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 随着具身智能的发展,机器人逐渐融入日常生活作为人类助手,这要求机器人能解读高层指令、感知动态环境并实时调整计划。视觉-语言模型(VLMs)因融合 视觉理解与语言推理能力,成为机器人任务规划的重要方向,但其现有方法在三方面存在明显局限: 为此,本文提出ExploreVLM框架,通过闭环设计整合感知、规划与执行验证,解决上述问题。 核心框架设计 ExploreVLM以"感知-规划-执行-验证"的闭环为核心,整体流程如下(figure 2): 关键模块解 ...
从方法范式和应用场景上看强化与VLA/Flow Matching/机器人控制算法
具身智能之心· 2025-08-19 01:54
作者丨 Jeungtao 因为之前做过两年强化学习相关的工作,看到最近VLA也有一些突破,出于个人兴趣,业余时间学习了一下,也做了点笔记,分享到这里。主要是RL的Context 下这两年VLA/Diffusion Policy。最适合有一些RL背景,想了解一些新的进展的朋友阅读。如有疏漏敬请指出。分别从 方法范式 与 应用场景 两个维度展开。 一、方法范式 1. 传统强化学习(RL)/模仿学习 + Sim2Real 2. Diffusion Policy、Flow Matching与VLA模型 个人觉得VLA系列与传统RL一个根本性的区别是RL任务目标输入方式靠reward function,难以描述复杂的任务的过程和目标(比如何折衣服符合人类的喜好,折 好后放到哪里"reward"更大,如何收拾桌面符合人类"整洁"的定义,这些都是比较模糊的,更进一步地,一些长程任务如餐后收拾桌面和洗餐具、洗衣服烘干和 晾晒等,则更难用reward shapping规则化地描述); 编辑丨具身智能之心 原文链接: https://zhuanlan.zhihu.com/p/1940101671704327220 点击下方 卡片 ...