Workflow
视觉强化学习
icon
Search documents
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 00:07
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Weijia Wu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 出发点与工作背景 近年来,强化学习(RL)与视觉智能交叉领域的进展催生了这样一类智能体:它们不仅能感知复杂的视觉场景,还能在其中进行推理、生成和行动。本篇综述 对视觉强化学习这一交叉领域进行了关键且最新的综合分析,先将该问题形式化并追溯相关策略优化策略的演变,再把 200 多篇代表性研究成果归纳为多模态大 型语言模型、视觉生成、统一模型框架和视觉 - 语言 - 动作模型四大主题支柱,考察各支柱的算法设计、奖励工程和基准进展并提炼趋势,最后回顾评估协议, 指 出 开 放 挑 战 , 旨 在 为 研 究 人 员 和 从 业 者 提 供 该 领 域 的 清 晰 地 图 并 强 调 未 来 有 前 景 的 研 究 方 向 。 相 关 资 源 可 在 以 下 网 址 获 取 : https://github.com/weijia ...
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 00:03
图 1:代表性视觉强化学习模型时间线。该图按时间顺序概述了 2023 年至 2025 年的关键视觉强化学习(Visual RL)模型,并将其分为四个领域:多模态大语 言模型(Multimodal LLM)、视觉生成(Visual Generation)、统一模型(Unified Models)和视觉 - 语言 - 动作模型(VLA Models)。 在 大语言模型(LLM) 的江湖里, 强化学习(RL) ,特别是带有 人类反馈的强化学习(RLHF) ,早已不是什么新鲜词。正是它,如同一位内 力深厚的宗师,为 GPT、Qwen、DeepSeek 等模型注入了"灵魂",使其回答能够如此贴合人类的思维与价值观。这场由 RL 主导的革命,彻底改变 了我们与AI的交互方式。 然而,当所有人都以为强化学习的舞台仅限于文字的方寸之间时,一股同样的浪潮,正以迅雷不及掩耳之势,"卷"向了另一个更为广阔的领域—— 计算机视觉(CV) 。 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 当RLHF"卷入"计 ...