Workflow
视觉语言模型(VLA)
icon
Search documents
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
具身智能之心· 2026-01-04 00:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 ★ 继续具身智能之心上次的圆桌,我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题,近万字分 享。 刘斯坦: 我们想聊一聊关于RL的事情,现在很多VLA的训练已经有点类似于标准化了,先进行模仿学习训练基座。然后基于一些仿真环境进行一些强化学习,就是跑最后的 是一公里或者十公里,最后的10%好像已经有一些这种标准化的一种训练的方式。我们如果看 deepseek R1。还有比如说最近提出的那个超级人工智能的一些图景的 话,其实全部都是关于RL的训练范式有关的创新,就是RL它不是一个简单的就是一个强化学习上,然后仿真环境去用了就结束了。它可能是涉及到一个非常复杂 的流程等等,我们想在第二个大问题的第一个小问题的讨论是关于RL训练范式的创新和未来发展的情况。首先,我们想就是问问张 ...
理想连发两篇VLA机器人论文
理想TOP2· 2025-12-02 07:29
2025年11月24日理想发布Compressor-VLA与AVA-VLA。 Compressor-VLA提出了一种针对机器人操作场景的高效视觉压缩方案,旨在解决端到端模型太重、太慢的落地难题。教会了机器人带着目的去观察,通 过语言指令过滤掉视觉垃圾,用更少的算力实现更精准的操作。 现在的具身智能大模型存在极其严重的算力浪费: 像一个强迫症患者,花费巨量算力去处理背景墙纸、地板纹理等无关紧要的视觉信息,导致推理延迟 过高,无法满足机器人的实时控制需求。 反直觉现象: 为了给模型减肥,传统做法是直接丢弃视觉token。这种盲目剪枝会导致灾难性后果——模型为了降低计算量,可能会保留纹理清晰的桌布 图案,丢弃了模糊但至关重要的物体边缘或把手位置。 现有的压缩算法是任务无关(Task-Agnostic)的。也就是说,压缩器是个瞎子,它只看图片本身,根本不知道机器人当下的任务是拿苹果还是关抽屉。这导 致在压缩过程中,关键的任务线索被当做噪声误删了 。 AVA-VLA针对现有端到端机器人大模型最核心的健忘问题,提出了一套工程化解决方案。 以下为更细化论述: 解决方案框架 采用了一种双通道互补结构,类似于指挥官 + 工匠的 ...
理想认为VLA语言比视觉对动作准确率影响更大
理想TOP2· 2025-08-16 12:11
Core Viewpoint - The article discusses the release of DriveAction, a benchmark for evaluating Visual-Language-Action (VLA) models, emphasizing the need for both visual and language inputs to enhance action prediction accuracy [1][3]. Summary by Sections DriveAction Overview - DriveAction is the first action-driven benchmark specifically designed for VLA models, containing 16,185 question-answer pairs generated from 2,610 driving scenarios [3]. - The dataset is derived from real-world driving data collected from mass-produced assisted driving vehicles [3]. Model Performance Evaluation - The experiments indicate that the most advanced Visual-Language Models (VLMs) require guidance from both visual and language inputs for accurate action predictions. The average accuracy drops by 3.3% without visual input, 4.1% without language input, and 8.0% when both are absent [3][6]. - In comprehensive evaluation modes, all models achieved the highest accuracy in the full V-L-A mode, while the lowest accuracy was observed in the no-information mode (A) [6]. Specific Task Performance - Performance metrics for specific tasks such as navigation, efficiency, and dynamic/static tasks are provided, showing varying strengths among different models [8]. - For instance, GPT-4o scored 66.8 in navigation-related visual questions, 75.2 in language questions, and 78.2 in execution questions, highlighting the diverse capabilities of models [8]. Stability Analysis - Stability analysis was conducted by repeating each setting three times to calculate average values and standard deviations. GPT-4.1 mini and Gemini 2.5 Pro exhibited strong stability with standard deviations below 0.3 [9].