Workflow
BLIP
icon
Search documents
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 12:41
作者 | 瀑风 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1916810989434807458 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『VLA』技术交流群 本文只做学术分享,如有侵权,联系删文 2025年5月,VLA的RL领域掀起了一股热潮,不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上, 而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。 早期探索:iRe-VLA (Improving Vision-Language-Action Model with Online Reinforcement Learning) ★ https://arxiv.org/pdf/2501.16664 arxiv.org/pdf/2501.16664 这篇文章的核心算法是PPO,并且针对在线强化学习不稳定的问题提出了双阶段的训练范式: 具体实现上,此文没有采用已有的VLA模型结构,而是将BLIP-2 3B用于VLM backb ...
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
机器之心· 2025-06-22 04:26
随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。 南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源! https://github.com/wusize/OpenUni 联系方式: size001@e.ntu.edu.sg 架构图, OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL (理解)与 SANA (生成) 机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院 作者: Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy 开源代码: 图 1 : OpenUni 在生成任务上的性能表现,展示了其高效的参数利用 三大核心优势 | Size Wu*1 | | Zhonghu ...
2025年中国多模态大模型行业市场规模、产业链、竞争格局分析及行业发趋势研判:将更加多元和深入,应用前景越来越广阔[图]
Chan Ye Xin Xi Wang· 2025-05-29 01:47
内容概要:多模态大模型指能够同时处理和理解多种模态数的大规模人工智能模型。作为近年来人工智 能领域的一项突破性技术,以其卓越的数据处理能力和丰富的应用场景吸引了众多关注。在强劲的市场 需求以及国家政策的支持下,我国大模型市场规模不断增长。2024年中国多模态大模型市场规模为 156.3亿元,较2023年增加65.4亿元;预计2025年中国多模态大模型市场规模为234.8亿元。多模态大模 型在数字人领域的应用份额最大;其次是游戏与广告商拍领域;第三是智能营销、社交媒体领域。多模 态大模型作为新一代人工智能技术范式,正逐步成为推动相关产业创新和发展的重要力量。随着技术的 不断进步,未来,多模态大模型行业发展将呈现出更加多元和深入的趋势,多模态大模型将更加智能、 更加人性化,应用前景将越来越广阔。 多模态大模型行业发展至今,共经历了任务导向阶段、觉一语言预训练阶段,以及多模态大模型阶段。 其中,在多模态研究的初期.模型设计主要集中在解决具体的应用问题上;视觉-语言预训练阶段是强 调跨模态理解与生成能力的同步提升;多模态大模型已经实现一种更为灵活的交互方式。 三、多模态大模型行业发展现状 上市企业:阿里巴巴(0998 ...
2025年中国多模态大模型行业主要模型 主要多模态大模型处理能力表现出色【组图】
Qian Zhan Wang· 2025-05-22 08:58
转自:前瞻产业研究院 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 多模态大模型类型及综合对比 视觉+语言的多模态大模型目前主流方法是:借助预训练好的大语言模型和图像编码器,用一个图文特 征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。这样可以利用已有的大量 单模态训练数据训练得到的单模态模型,减少对于高质量图文对数据的依赖,并通过特征对齐、指令微 调等方式打通两个模态的表征。 多模态大模型类型-CLIP CLIP是OpenAI提出的连接图像和文本特征表示的对比学习方法。CLIP是利用文本信息训练一个可以实 现zero-shot的视觉模型。利用预训练好的网络去做分类。具体来说,给网络一堆分类标签,比如cat, dog,bird,利用文本编码器得到向量表示。然后分别计算这些标签与图片的余弦相似度;最终相似 ...