ByteMini机器人

Search documents
字节发布GR-3大模型,开启通用机器人“大脑”新纪元
Jing Ji Guan Cha Bao· 2025-07-22 07:23
7月22日,字节跳动Seed官方公众号宣布推出一款名为GR-3的全新Vision-Language-Action Model (VLA,视觉-语言-动作)模型。据称,该模型拥有强大的泛化能力、对抽象概念的理解以及精细操作 柔性物体的能力。 GR-3:多样数据训练 高效解读指令 GR-3模型的核心优势在于其出色的泛化能力和对抽象概念的理解。与传统的VLA模型不同,GR-3通过 少量的人类数据即可实现高效微调,从而快速且低成本地迁移至新任务,认识新物体。这一特性使得 GR-3在面对未知环境和物体时,依然能够保持高效稳定的操作性能。 具体而言,GR-3采用了Mixture-of-Transformers(MoT)的网络结构,将"视觉-语言模块"和"动作生成模 块"紧密结合,形成了一个拥有40亿参数的端到端模型。这种设计使得GR-3能够直接根据摄像头捕捉的 画面和收到的语言指令,迅速计算出下一步的动作。例如,在听到"收拾餐桌"的指令后,GR-3能够自 动完成"打包剩菜、收拾餐具、倒垃圾"等一系列连续动作。 在实际应用中,GR-3模型展现出了卓越的性能。在通用拾取放置任务中,GR-3面对训练中未见过的物 品和环境时,依 ...