世界知识(world knowledge)

Search documents
聊聊DreamVLA:让机器人先看后想再动
具身智能之心· 2025-08-11 00:14
作者丨 小红师兄 编辑丨具身智能之心 原文链接: https://zhuanlan.zhihu.com/p/1928781468743766758 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 最近读到一篇很不错的论文《DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge》,提出了一种新的视觉-语言-动作 (VLA)模型,名叫DreamVLA。这个模型的核心在于让机器人不仅能"看"图像、"听"指令,还能通过预测环境的动态、空间和语义信息,做出更精准的动作决 策。 背景:机器人为啥需要"想"得更多? 传统的VLA模型通常直接把视觉输入(比如摄像头拍的画面)和语言指令(比如"把杯子拿过来")映射到动作上。这种方法简单直接,但问题在于,画面里往往 有很多无关信息,机器人可能会被干扰,或者在复杂环境中反应不够灵活。比如,场景里可能有桌子、椅子、杂 ...