Workflow
Robix
icon
Search documents
字节团队最新Robix!全能大模型,一个模型就能搞定机器人推理、任务规划和交互
具身智能之心· 2025-09-08 00:03
项目链接:https://robix-seed.github.io/robix/ 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Huang Fang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 当机器人在餐桌前接到"打包高热量食物并拿一杯饮品"的指令,却在拿起可乐时突然得知用户对咖啡因过敏 —— 它能否及时停下动作,换一杯无咖啡因饮品? 当整理桌面时遇到"扔掉所有垃圾"的模糊要求,它能否主动确认"未明确的鸡腿是否需要丢弃"?这些真实场景中的灵活应对,正是当前通用机器人迈向"人性化 助手"的关键瓶颈。 在开放动态的日常环境中,机器人不仅需要精准执行操作,更需具备 "看懂" 物理世界(如判断物体空间位置、动作可行性)和 "听懂" 人类需求(如处理临时中 断、澄清模糊指令)的双重能力。但现有分层机器人系统的高层认知模块往往难以兼顾:要么依赖视觉 - 语言模型仅完成任务分解,缺乏将数字概念落地到物理 操作的 具身推理能力 ;要么采用手 ...
腾讯研究院AI速递 20250908
腾讯研究院· 2025-09-07 16:01
1. AI Key作为一款定价89美元的iPhone外接AI助手硬件,上线7小时内几乎售罄,可通过USB接口连接后实现语音控 制手机应用功能; 2. 当今iPhone已自带强大芯片能访问各类AI模型,AI Key等外接硬件本质是给已足够智能的设备增加冗余功能; 生成式AI 一、 Anthropic禁止中国控股公司使用Claude,公司在哪都不行 1. Anthropic发布最新政策限制,停止向多数股权由中国资本持有的集团或子公司提供Claude服务,无论其运营地点 在哪里; 2. 该限制适用于直接或间接被中国公司持股超过50%的实体,官方声明这是出于法律、监管和安全风险考虑; 3. 政策同样适用于俄罗斯、伊朗、朝鲜等"对手国家"实体,高管称此举预计会对Anthropic全球收入造成"数亿美 元"范围的影响。 https://mp.weixin.qq.com/s/TsErlyz7xnm_iHhP1CGc8Q 二、 一个能让 iPhone 用上 AI 的配件,千万人围观但或大可不必 3. AI硬件创业潮(如Humane Ai Pin和Rabbit R1)多数是短期热度,未来真正有价值的是将AI作为系统"属性"而非 ...
字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
机器之心· 2025-09-07 05:12
近日,字节跳动 Seed 团队发布了最新的机器人研究成果—— Robix ,一个旨在提升机器人思考、规划与灵活交互能力的「机器人大脑」。 根据报告与演示视频,搭载 Robix 的机器人已展现出一系列过去难以实现的复杂交互能力: …… 标题:Robix: A Unified Model for Robot Interaction, Reasoning and Planning ArXiv: https://arxiv.org/abs/2509.01106 项目主页:https://robix-seed.github.io/robix/ 在做饭时,它不仅能根据菜名(如「鱼香肉丝」)准备食材,还能主动发现缺少配料并询问是否需要补齐; 在用户中途改变主意时,它可立即停止当前操作并灵活执行新指令; 在你随手涂鸦时,它能识别出画中的物体,并自然地给予回应与赞赏; 以下演示视频将直观展示 Robix 在真实互动场景中的工作方式。 核心思想: 长期以来,通用机器人在处理复杂、长程任务时,往往因依赖 "模块化" 拼接的设计而显得僵化。Robix 的核心亮点在于其 一体化架构 :将推理、任务规划与人机 交互无缝整合到单个端到端多 ...
字节发了个机器人全能大模型,带队人李航
量子位· 2025-09-06 04:21
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 机器人终于不用散装大脑了! 字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。 经常做机器人的朋友都知道,以前想让机器人干活,得先解决一个烦人的问题—— 模块之间的信息代沟。 能听懂指令和能完成指令可完全不是一回事,以前要让机器人听懂人话,得装个专门的语言交互模块;要让它能避开障碍从客厅走到阳台,又 得搭一套任务规划模块;要想……还得…… 于是不同模块在机器人身上拼凑使用苦开发者久矣。 但现在,字节Seed推出了 Robix视觉——语言单模型 ,把三件事全包了,也不用搞多模块拼接那套了。 所以,这是怎么做到的呢? 核心采用思维链推理和三阶段训练策略 Robix是一款专门给机器人用的模型。核心想法是让一个模型同时搞定三件事: 首先,团队的思路是把机器人系统分为两层,高层认知和底层执行,Robix就是管高层认知的。 琢磨怎么干活(推理) 安排干活步骤(任务规划) 跟人聊天沟通(自然语言交互) 底层(VLA)来执行Robix发出的命令。 而Robix本身也并不是多个模块拼合的散装大脑,而是一个视觉-语言融合的单模型,能同时处理画面、语言,还能把思考 ...