Workflow
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
量子位·2025-06-05 05:00

上海人工智能实验室联合多家单位提出了一种全新的 通用 具身智能大脑框架:Visual Embodied Brain,简称 VeBrain 。 该模型通过 同时集成视觉感知、空间推理和机器人控制能力 ,可实现多模态大模型(MLLM)对物理实体的直接操控,使机器人能像人类一 样"看到-思考-行动"。 相比现有的MLLM和视觉-语言-动作(VLA)模型,VeBrain具备以下亮点: 统一三类任务的语言建模范式 将机器人控制转化为MLLM中常规的2D空间文本任务,通过关键点检测与具身技能识别等任务,打通感知、推理、控制三大能力的建模路 径; 提出"机器人适配器"实现闭环控制 由关键点追踪、动作控制、技能执行和动态接管模块组成,实现从文本决策到真实动作的精准映射; 构建高质量多能力数据集VeBrain-600k VeBrain团队 投稿 量子位 | 公众号 QbitAI 机器人的新大脑框架来了! 涵盖60万条指令数据,覆盖多模态理解、视觉-空间推理、机器人操作三类任务,辅以多模态链式思维(Multimodal CoT)标注,提升模 型组合推理能力; 卓越的多模态和真机性能 同时实现匹配同参数量下最强开源模型QwenVL ...