多模态大语言模型

Search documents
自驾搞科研别蛮干!用对套路弯道超车~
自动驾驶之心· 2025-07-11 01:14
读研想少走弯路、快速出成果?靠自己瞎摸索费时间费精力还没结果,找个厉害的榜样"抄作业",才是最 直接的办法。 导师介绍 毕业于知名计算机名校。曾在多家公司担任算法研究员,并进行计算机视觉,高效模型压缩算法,多模态 大语言模型的研究,包括模型量化,剪枝,蒸馏,编译以及高效稀疏化训练与推理。 博士期间研究方向聚焦为计算机视觉,高效的深度学习训练和推理方法,大语言模型轻量化与高效微调技 术。 这套路看着"功利",但真能让你在科研路上跑快点,别人还在绕小道,你已经上了高速。 厉害的榜样通常 来说,就是那些论文专利一大堆的导师学长学姐,但苦于和这些榜样搭不上话, 现在如何让入场甩开同 行,别人摸路你超车? 自动驾驶之心联合业内知名LLM/MLLM方向学者推出了1v6指导小班课。从模型理论到代码实践, 业内大 牛手把手带走科研全流程,帮助大家形成自己的知识体系, 掌握LLM/MLLM论文的算法设计及创新思路。 扫码免费咨询 【科研成果】 在国际顶级会议CVPR,ICCV, EMNLP等发表十余篇论文, 并担任CVPR,ICCV,ECCV,ICML,ICLR, NeurIPS 等重要会议和期刊的审稿人。多项发明专利,已经指 ...
ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
机器之心· 2025-07-10 04:26
本文第一作者为清华大学计算机系的硕士二年级研究生葛晨笛,研究方向为多模态大语言模型、自动机器学习和图机器学习。主要合作者为来自阿里巴巴集 团安全部的樊珈珮、黄龙涛和薛晖。通讯作者为清华大学的朱文武教授、王鑫副研究员。 近日,阿里巴巴集团安全部 - 交互内容安全团队与清华大学针对持续多模态指令微调的联合研究成果被机器学习顶级会议 ICML 2025 收录。本届 ICML 共收到 12,107 篇投稿,录用率为 26.9% 。 一、 研究背景 多模态大语言模型( Multimodal Large Language Models, MLLMs) 通过结合视觉、语音等模态编码器与文本生成模型,展现出处理多模态数据的强大 能力。然而,在实际应用中,预训练的 MLLM 会随着用户需求和任务类型的变化,不断面临新的适配要求。如果直接针对新任务进行微调,模型往往会出 现灾难性遗忘 ( Catastrophic Forgetting) ,即丢失之前掌握的能力。 因此,如何让 MLLM 持续地适应新任务,同时保留过去的知识,成为一个核心挑战,这一问题被称为「持续多模态指令微调」 ( Continual Multimodal In ...
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 07:30
HumanOmniV2团队 投稿 量子位 | 公众号 QbitAI 在多模态大语言模型(MLLMs)应用日益多元化的今天,对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习(RL) 在增强大语言模型(LLMs)的推理能力方面已展现出巨大潜力,但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。 在深入研究现有技术后,发现在当前多模态推理模型中发现现有的推理路径存在两大核心问题:全局上下文理解不足和捷径问题。 全局上下文理解不足: 当模型无法准确识别或错误解读多模态证据和上下文信息时,便会出现此问题,导致给出不正确的答案。 捷径问题: 指模型在处理多模态输入时,忽视了关键线索,未充分考量多模态信息就直接给出答案,从而导致次优或片面的结果 为彻底解决这些痛点,阿里巴巴通义实验室团队推出 HumanOmniV2 ,强调模型必须在对多模态输入 全局上下文有清晰理解 的 基础上进行推理。这种全局性理解能够有效避免模型遗漏关键多模态线索,确保推理过程的全面性和深入性。 相关代码、模型、数据都开源,地址可在文末获取。 效果展示 问题:这两个人是什么关系? A. 他们想引起人们对该产品的关注。 B. 这两个人是商业伙 ...
快手团队发布8B Kwai Keye-VL!技术报告速递~
自动驾驶之心· 2025-07-07 12:17
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 快手团队发布8B Kwai Keye-VL 尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在静态图像处理方面展现出卓越的能 力,但在理解动态性强、信息密度高的短视频内容方面仍存在明显不足——而短视频正是当今数字生态中 的主流媒介。为弥补这一差距,快手团推推出了 Kwai Keye-VL ,这是一款参数规模达 8B的多模态基础模 型,专为实现领先的短视频理解能力而设计,同时保持强大的通用视觉-语言处理能力。 Keye-VL 的构建基于两大核心支柱:一是包含超过 6000 亿 token 的大规模高质量数据集,其中以视频数据 为核心;二是创新性的训练策略。该训练策略包括一个四阶段的预训练流程,以实现稳固的视觉与语言对 齐;随后是一个精心设计的两阶段后训练过程。第一个后训练阶段旨在增强模型的基础能力,如指令跟随 等;第二阶段则专注于激发其高级推理能力。 在第二阶段中,我们的关键创新之一是一种五模式"冷启动"数据混合策略,包括"思考型"、"非思考 型"、"自动思考型"、"图文思 ...
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 05:23
随着多模态大语言模型( MLLMs)的快速发展, 其在视频推理等前沿任务中快速进化,不断突破性能天花 板。而 强化学习( RL)作为推动这场技术革命的关键引擎,为大语言模型注入了强大的推理能力。 DeepSeek-R1凭借纯RL优化,让模型推理能力实现质的飞跃;VideoR1引入T-GRPO,赋予模型拆解视频 时空逻辑的 "透视眼";VideoChat-R1借助基于 GRPO 的多任务联合微调,让模型在视频理解与多步推理 上表现得更加 "聪明伶俐",相关成果不断涌现…… 尽管 基 RL驱动的优化在指标提升上成绩亮眼, 但 在面对复杂多模态任务时,依然存在两大拦路虎: 一方 面,思维链推理应用到多模态时 "水土不服",不仅产出的推理过程冗长没重点,训练目标还常忽略关键时空 线索,拖慢学习效率;另一方面,现有依赖单选题问答的稀疏二元奖励信号太" 简单 粗暴 ",只认可全对答 案,埋没部分正确内容。不过幸运的是,视频定位研究已证实,软奖励信号能稳定学习过程、提升精度 。 ▍提出TW-GRPO框架:革新加权机制与奖励设计 面对多模态大语言模型在视频推理任务中存在的推理质量和奖励粒度等挑战,来自 中山大学、兰州大学、合 ...
穆尧团队最新!RoboTwin 2.0:用于鲁棒双臂操作的可扩展数据基准
自动驾驶之心· 2025-06-24 12:41
以下文章来源于具身智能之心 ,作者Tianxing Chen等 具身智能之心 . 与世界交互,更进一步 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tianxing Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 天行和muyao大佬团队出品的2.0工作,看看有哪些创新点和惊喜吧~ Webpage: https://robotwin-platform.github.io/ arXiv:https://arxiv.org/abs/2506.18088 Code: https://github.com/RoboTwin-Platform/RoboTwin Document: https://robotwin-platform.github.io/doc/ Title:RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Rando ...
明略科技发布全球化广告测试及优化产品AdEff
Zheng Quan Ri Bao Wang· 2025-06-20 07:18
本报讯 (记者李春莲)6月19日,北京明略昭辉科技有限公司(以下简称"明略科技")正式发布AI驱动 的全球化广告测试及优化产品——AdEff。该产品基于明略科技自主研发的超图多模态大语言模型 (HMLLM)开发,采用大模型及混合专家模型协同架构,可快速、准确预测消费者对广告的主观反应 和广告效果,并给出优化建议。 AdEff是生成式AI技术及智能体在营销服务领域的最新实践,也代表着未来营销工具发展的方向。谭北 平表示,AdEff接下来还将在品牌内容测量类型、技术优化、个性化适配,以及全球生态拓展方面持续 发力。 明略科技集团副总裁、秒针营销科学院院长、AdEff产品负责人谭北平在发布现场表示:"通过技术创 新,AdEff解决了企业在广告测试和优化环节长期以来面临的时间与成本难题,让创意行业拥有了全新 的效率工具。未来,秉持让内容测量速度更快、成本更优、与品牌更相关的使命,AdEff还会将更多品 牌生成内容纳入测量范畴。" 据谭北平介绍,依托明略科技自研的"超图多模态大语言模型(HMLLM)",协同混合专家模型, AdEff可以在短短十几分钟内,模拟消费者对广告创意的反馈,并给出针对性的优化建议。它可以帮助 企 ...
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
MINT-CoT团队 投稿 量子位 | 公众号 QbitAI 思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型 (MLLMs)中,CoT 同样展现出了巨大潜力。 3. 过度依赖外部功能 像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。 然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。 最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决"多模态数学推理"中的难题而设计。 为什么数学视觉推理这么难? 尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存 在 三大瓶颈: 1. 粗粒度图像区域选择 大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关 ...
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 15:45
机器之心报道 机器之心编辑部 刚刚,在美国田纳西州纳什维尔举办的 CVPR 2025 公布了最佳论文等奖项。 今年共有 14 篇论文入围最佳论文评选,最终 5 篇论文摘得奖项 ,包括 1 篇最佳论文 、 4 篇最佳论文荣誉提名 。此外,大会还颁发了 1 篇最佳学生论文 、 1 篇最 佳学生论文荣誉提名 。 根据会方统计,今年大会共收到 4 万多名作者提交的 13008 份论文。相比去年(11532),今年的投稿数量增长了 13%,最终有 2872 篇论文被接收,整体接收率 约为 22.1%。在接收论文中,Oral 的数量是 96(3.3%),Highlights 的数量是 387(13.7%)。 计算机视觉技术的火热给大会审稿带来了空前的压力。本届投稿作者数量、论文评审者和领域主席(AC)数量均创下新高。 今年前来现场参会的学者也超过 9000 人,他们来自 70 余个国家和地区。 CVPR 官方公布了各个细分领域的论文接收情况,如下图所示。可以看到,图像与视频生成领域今年度的论文接收数量最多,而接收率最高的领域则是基于多视角 和传感器的 3D 以及基于单图像的 3D。 此次,最佳论文奖委员会成员中有 AI ...
科学家证实大模型能像人类一样“理解”事物
Ke Ji Ri Bao· 2025-06-10 22:45
在这项研究中,科研人员借鉴人脑认知的原理,设计了一个巧妙的实验:让大模型和人类玩"找不同"游 戏。实验人员从1854种常见物品中给出3个物品概念,要求选出最不搭的那个。通过分析高达470万次的 判断数据,科研人员首次绘制出了大模型的"思维导图"——"概念地图"。 传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正"理解"物体含义。"当前人工智能 可以区分猫狗图片,但这种'识别'与人类'理解'猫狗有什么本质区别,仍有待揭示。"论文通讯作者、中 国科学院自动化研究所研究员何晖光说。 科技日报北京6月10日电 (记者陆成宽)记者10日从中国科学院自动化研究所获悉,来自该所等单位的 科研人员首次证实,多模态大语言模型在训练过程中自己学会了"理解"事物,而且这种理解方式和人类 非常类似。这一发现为探索人工智能如何"思考"开辟了新路,也为未来打造像人类一样"理解"世界的人 工智能系统打下了基础。相关研究成果在线发表于《自然·机器智能》杂志。 人类智能的核心,就是能真正"理解"事物。当看到"狗"或"苹果"时,我们不仅能识别它们长什么样,如 大小、颜色、形状等,还能明白它们有什么用、能带给我们什么感受、有什么文化意 ...