上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

上海人工智能实验室联合多家单位提出了一种全新的通用具身智能大脑框架：Visual Embodied Brain，简称 VeBrain 。该模型通过同时集成视觉感知、空间推理和机器人控制能力，可实现多模态大模型（MLLM）对物理实体的直接操控，使机器人能像人类一样"看到-思考-行动"。相比现有的MLLM和视觉-语言-动作(VLA)模型，VeBrain具备以下亮点：统一三类任务的语言建模范式将机器人控制转化为MLLM中常规的2D空间文本任务，通过关键点检测与具身技能识别等任务，打通感知、推理、控制三大能力的建模路径；提出"机器人适配器"实现闭环控制由关键点追踪、动作控制、技能执行和动态接管模块组成，实现从文本决策到真实动作的精准映射；构建高质量多能力数据集VeBrain-600k VeBrain团队投稿量子位 | 公众号 QbitAI 机器人的新大脑框架来了！涵盖60万条指令数据，覆盖多模态理解、视觉-空间推理、机器人操作三类任务，辅以多模态链式思维（Multimodal CoT）标注，提升模型组合推理能力；卓越的多模态和真机性能同时实现匹配同参数量下最强开源模型QwenVL ...