多模态大模型

Search documents
充分激发模态协作,MokA量身打造MLLM微调新范式
机器之心· 2025-06-29 02:21
本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。作者来自于中国人民大学和上海人工 智能实验室。 近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。然而 ,当在多模态下游任务进行微调时,当前主流的多模态微调方法大 多直接沿用了在纯文本大语言模型(LLMs)上发展出的微调策略,比如 LoRA。但这种「照搬」 策略,真的适用于多模态模型吗? 多基座、多场景下均实现性能提升 论文标题:MokA: Multimodal Low-Rank Adaptation for MLLMs 论文链接:https://arxiv.org/abs/2506.05191 项目主页:https://gewu-lab.github.io/MokA 来自中国人民大学高瓴人工智能学院 GeWu-Lab 实验室、上海人工智能实验室的研究团队在最新论文中给出了一种全新的思考方式。他们指出:当下 MLLMs 微调 方案大多简单的将单模态策略迁移至多模态场景,未结合多模态学习特性进行深入思考。事实 上,在多模态场景中,单模态信息的独立建模(Unimodal Ad ...
福布斯中国“人工智能科技企业TOP 50”发布,创新集群阶梯崛起
Zheng Quan Shi Bao Wang· 2025-06-27 14:39
6月27日,中国人工智能创新大会在武汉举行。此次会上发布了2025福布斯中国"人工智能科技企业TOP 50"主榜单以及"人工智能创新技术企业""人工智能创新场景应用企业"等四大子榜单。证券时报记者从 现场了解到,入选企业的一个显著特征是技术的多元分化。 创新集群阶梯崛起 根据榜单,上海以21家入选企业领跑全国,从商汤科技的视觉识别到阶跃星辰的基座大模型,上海企业 呈现出明显的"硬科技+国际化"特质,目前与人工智能结合最为紧密的制造业场景包括新能源汽车、生 物医药、机器人、半导体集成电路等。北京14家获奖企业中,寒武纪的AI芯片与智谱清言的通用大模 型,则延续了中关村"技术原创性"的基因。 福布斯中国表示,这种"大象起舞"与"蚂蚁雄兵"并存的格局,恰恰反映了AI产业特有的活力,既需要长 期投入的基础研发,也离不开敏捷迭代的场景创新。 记者注意到,在入选的所有企业中,有20家企业已上市,上市企业约占25%。 福布斯中国分析称,这一结构特征揭示了人工智能产业作为典型的技术驱动型产业,技术迭代与场景创 新往往取决于技术创新动能,对于既有业务规模的依赖相对较小。非上市企业占比达75%的现状,也印 证了行业创新动能并未被 ...
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 09:41
EI/中文核心/毕业论文/申博等 点击下方 卡片 ,关注" 具身智能 之心 "公众号 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深导师团 队在线 "救援",一站式解决你的论文烦恼! 【前沿论文辅导重磅上线!多模态大模型/VLA/3D感知/数据生成/视觉语言导航/机器人导航/具身智能等顶会 方向1V1定制化辅导】 CCF-A到CCF-C SCI一区到四区 你是否正在研究以下前沿领域却苦于突破瓶颈? 多模态大模型(视觉-语言预训练、跨模态推理) 视觉语言动作(VLA)(端到端、分层等) 视觉语言导航(VLN)(Embodied QA、指令跟随、场景理解) 机器人抓取与导航(Sim2Real、强化学习、3D场景建模) 具身智能体泛化(跨任务迁移、零样本适应、仿真环境构建) 3D高斯泼溅(3DGS)(实时渲染、动态场景建模、SLAM结合) 端到端具身智能体(决策闭环、多模态传感器融合) 具身合成数据生成(自动标注、域适应、数据增强) 为什么选择我们? ✅ 顶会/顶刊导师团队:来自CMU、Stanford、MIT等名校的PhD及大厂研究员,覆盖ICRA、NeurIPS、C ...
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-06-27 09:34
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 你好啊,我们是自动驾驶之心。很开心你能点进来!如果你也认同内容可以改变世界,那你可能就是我们 在找的人! 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
基于VLM的快慢双系统自动驾驶 - DriveVLM解析~
自动驾驶之心· 2025-06-27 09:15
基于此DriveVLM主要有以下几个创新点: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 近一年来,大模型的发展突飞猛进,大模型应用于各个下游任务的工作也层出不穷,今天和为大家分享清华&理想将大模型应用在自动驾 驶领域的一次尝试与探索,也是去年理想快慢双系统(E2E+VLM)的核心算法,利用大模型强大的few-shot能力,期望解决实际驾驶场景 中的长尾问题,提升自动驾驶系统的认知和推理能力。 DriveVLM主要的出发点来自于目前业界自动驾驶遇到的实际困难,随着智能驾驶逐渐从 L2 往 L4 迭代,在实际场景中遇到了各种各样的 长尾问题。这些长尾问题随着数据驱动的方式会逐渐收敛一些,这也是目前业界主流的思路和方法,期待通过数据驱动的方式逐渐毕竟 L4;但是大家随着研究的深入发现,真实场景中的长尾问题是无穷无尽的,只是 case by case 的数据驱动几乎无法进化到真正的 L4 无人驾 驶。因此,工业界和学术界需要进一步思考自动驾驶的下一代方案。 而数据集构建可以说是这篇工作最核心的内容,主要聚集自动驾驶场景关心的五个维度,下面一一展开介绍: Ch ...
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 00:49
余天予,清华大学计算机系一年级博士生,导师为清华大学自然语言处理实验室刘知远副教授。研究兴 趣主要包括高效多模态大模型、多模态大模型对齐和强化学习,在 CVPR、AAAI等人工智能领域的著 名国际会议和期刊发表多篇学术论文,谷歌学术引用1000余次。 Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward,基于可验证奖励的强化学习)的巨大潜力。 然而,现有方法的应用范围局限于数学和代码等少数领域。面对自然语言固有的丰富多样性,依赖规则 验证器的方法难以拓展到通用领域上。 针对这一关键挑战,清华大学自然语言处理实验室提出了一项关键性技术 —— 基于参考概率奖励的强 化学习(Reinforcement Learning with Reference Probability Reward, RLPR )。 这项技术通过 Prob-to-Reward 方法显著提高了概率奖励(Probability-based Reward, PR)的质 量,相比基于似然度的基线方法取得了明显更佳的性 ...
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 06:50
当前,多模态大模型在根据复杂文本提示生成高保真、语义一致的图像方面取得了显著进展,但在处理包含精确空间关系、多对象属性及复杂组合的指令时,仍 面临挑战。 针对此,来自香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队,继其先前发布的 Generation Chain-of-Thought (GoT) 框架之后,现推出重要进展 ——GoT-R1。 该新框架通过引入强化学习,显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力,使其能够超越预定义模板,自主探索和学习更优的推理策略 。 GoT 和 GoT-R1 已全面开源。 GoT 框架首先通过引入显式的语言推理过程,在生成图像前对语义内容和空间布局进行规划,从而提升了生成图像的准确性和可控性 。然而,GoT 的推理能力主 要源于基于人工定义模板的监督微调数据,这在一定程度上限制了模型自主发现更优推理策略的潜力,有时可能导致生成的推理链条未能完全忠实于用户复杂的 文本提示 。 GoT-R1 的提出,旨在克服上述局限。它将强化学习(RL)创新性地应用于视觉生成的语义 - 空间推理过程,赋予模型自主学习和优化推理路径的能力。 强化学习训练前 ...
深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
自动驾驶之心· 2025-06-22 14:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型高效微调已经成为业界关注的焦点,无论是通用大模型,还是智驾大模型,如何通过轻量微调变成各个不同领域的专业模型,成为 讨论的热点。所以今天就来大家一起聊聊LORA。 背景: 业内的大公司或者研究机构,都是有足够资源的来开发大模型,但是对于一般的小公司或者个人来说,要想开发自己的大模型几乎 不可能,要知道像 ChatGPT 这样的大模型,一次训练的成本就在上千万美元,而即使是DeepSeekv3,单次训练成本也在500万美元以上, 所以充分利用开源大模型,在领域任务上高效微调便成为了当下学术界和工业界迫切需要解决的问题,至此LoRA问世: LoRA 的思想很简单: 而这个降维的操作就需要用到低秩分解了,接下来我们回顾下低秩分解: * [16] A. A. K. 那么LoRA训练的思路和优势是什么呢? 在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsic rank。 训练的时候固定 PLM 的参数,只训练降维矩阵 A ...
广联达(002410) - 002410广联达投资者关系管理信息20250621
2025-06-21 13:35
证券代码:002410 证券简称:广联达 广联达科技股份有限公司投资者关系活动记录表 编号:2025-005 投资者关系活动 类别 √特定对象调研 □分析师会议 □媒体采访 □业绩说明会 □新闻发布会 □路演活动 □现场参观 □其他 (请文字说明其他活动内容) 活动参与人员 嘉实基金、泰康资产、天弘基金、中信资管、华商基金、高信百 诺、华夏久盈、博时基金、华安基金、财通资管、万家基金、中 信证券 时间 2025 年 6 月 19 日/6 月 20 日 地点 广联达信息大厦/广联达上海大厦 形式 现场 上市公司接待人 员姓名 董事会秘书冯健雄 行业 AI 部总经理李 江 交流内容及具体 问答记录 一、AI 情况介绍 由公司行业 AI 部总经理李江对广联达 AI 战略及场景落地做 综合介绍 二、互动问答 Q1:公司今年提出产业 AI,那做好产业 AI 需要具备哪些要 素以及公司具备的优势 答:从产业 AI 的定义来看,是指将人工智能技术与特定产业 的领域知识、业务流程、数据特性深度融合,以解决产业实际问 题、提升生产效率、优化资源配置、创造新价值的技术体系和应 用范式。做好产业 AI 有三个成功关键要素,一是高质 ...
今夏面世 OpenAI剧透GPT-5
Bei Jing Shang Bao· 2025-06-19 14:52
OpenAI联合创始人兼首席执行官山姆·奥特曼在最新播客中披露,备受关注的GPT-5预计将于今年夏季发布,目前 具体发布日期尚未确定。随着GPT-5发布时间的临近,业界普遍认为,多模态大模型领域又将迎来新一轮的技术 竞争,该模型将成为生成式人工智能能力的一次重大升级。从早期测试者的反馈来看,其性能较GPT-4有显著提 升。但也有人担忧,从去年开始GPT-5就曾屡屡跳票,这会不会又是一次"狼来了"? AI能力重大飞跃 OpenAI开启官方播客,CEO打头阵。当地时间6月18日,OpenAI发布了一则山姆·奥特曼的访谈视频。在40分钟的 专访中,奥特曼回应了大家普遍关心的GPT-5、隐私保护、广告业务、5000亿美元的投资项目"星际之门"等热点 话题。奥特曼说,GPT-5"可能是在今年夏天的某个时候"会发布,但他也同时表示,对于新模型,内部也在讨论 是简单地提升版本号,还是像GPT-4那样不断优化和改进。 奥特曼还暗示,GPT-5所代表的不仅仅是性能升级,它还可能标志着OpenAI朝着统一的、类似代理的模型迈出了 真正的第一步,此举将使其更接近其通用人工智能目标。"我认为我们已经接近这座山的尽头了",他表示。 G ...