Workflow
多模态大模型
icon
Search documents
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
机器之心· 2025-06-12 00:53
本文第一作者杜恒辉为中国人民大学二年级硕士生,主要研究方向为多模态大模型视听场景理解与推理,长视频理解等,师从胡迪副教授。作者来自于中国人民 大学,清华大学和北京腾讯 PCG AI 技术中心。 我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的 任务,它们分别要求模型具备不同层面的能力。 过去大量的工作主要聚焦于完成单一任务,相比之下,我们人类对周围复杂的的世界具有一个通用的感知理解能力。因此,如何设计一个像人类一样对视听场景 具有通用理解能力的模型是未来通往 AGI 道路上一个极其重要的问题。 当前主流的学习范式是通过构建大规模的多任务指令微调数据集并在此基础上直接做指令 微调 。然而,这种学习范式对于多任务学习而言是最优的吗? 最近中国人民大学高瓴人工智能学院 GeWu-Lab 实验室,清华大学和北京腾讯 PCG AI 技术中心合作发表的 CVPR 2025 论文指出, 当前这种主流的学习范式忽视 了多模态数据的异质性和任务间的复杂关系,简单地将所有任务联合训练可能会造成任务间的相互干扰。 为了有效实现任务间的显示互 ...
2025年中国多模态大模型行业硬件现状 AI芯片和AI服务器的需求在多模态大模型影响下加速增长【组图】
Qian Zhan Wang· 2025-06-11 05:17
Core Insights - The AI chip market in China is projected to reach 168.8 billion yuan in 2024, reflecting a year-on-year growth of 40% due to increasing demand and technological advancements [5] - The AI server market is expected to grow significantly, with a projected market size of 11.5 billion USD in 2024 and 13.4 billion USD by 2027, indicating a compound annual growth rate of 22% from 2022 to 2027 [10] AI Chip Overview - AI chips are defined broadly as chips designed for artificial intelligence applications, with various designs and methods emerging to meet diverse demands [5] - The classification of AI chips can be based on technical architecture, functionality, and application scenarios [5] - Major companies in the AI chip sector include Huawei HiSilicon, Cambricon, Horizon Robotics, and others, focusing on applications in smart devices and security [7][8] AI Server Overview - AI servers are designed to support AI applications, consisting of components like DRAM, GPU, and acceleration chips, and can be categorized into deep learning training and intelligent application inference types [3] - The demand for AI servers is increasing due to rapid advancements in digital infrastructure and the rise of multimodal large models, which require enhanced computational capabilities [9] - Innovations in AI server technology are driven by the need for high-performance processors, large memory, and efficient cooling systems [9] Competitive Landscape - The AI chip market is concentrated among a few key players, with significant achievements in chip design and partnerships across various industries [7][8] - Companies like Huawei, Cambricon, and Horizon Robotics are actively collaborating with automotive and technology firms to expand their market presence [8]
海天瑞声20250610
2025-06-10 15:26
海天瑞声 20250610 摘要 Meta 投资 Scale AI 旨在获取高质量数据及拓展国防等市场,以支持其 AI 商业化落地,并看重其客户资源及政商军事领域布局。 Scale AI 营收高速增长,预计 2025 年达 20 亿美元,估值翻倍至 276 亿美元,主要受益于美国军方和政府订单。 海天瑞声认为 AI 应用普及和多模态大模型发展抬升市场空间,视觉数据 需求激增,2025 年 Q1 视觉收入占比达 49%。 海天瑞声 2025 年发力数据积累业务,并拓展海外市场,菲律宾数据交 付基地提供低成本产能,内容审核业务贡献现金流。 海天瑞声通过研发创新、AI 辅助标注和合成数据等方式提升竞争力,并 关注新型数据需求。 国内大模型发展推动海天瑞声与中国移动等央企合作,受益于沿投联动 机制,订单显著增长。 海天瑞声通过"3+1"模式参与地方政府数据产业化项目,提供数据治 理和标注等服务,并采取本地化部署策略确保合规。 Q&A Meta 对 Scale AI 的投资背后的逻辑是什么? Meta 对 Scale AI 的投资主要有两个方面的考虑。首先,数据处理在 AI 训练中 仍然至关重要。Scale AI 拥有 ...
苹果AI放鸽子,AI录音机、AI玩具等“新国货”先火了
Nan Fang Du Shi Bao· 2025-06-10 08:41
同时,南方都市报将联合广东连锁经营协会等多个省市的连锁协会成立组委会,举办"2025高品质消费 生态大会",组委会将从企业品质力、成长性、创新性、社会责任等方面综合评定"2025高品质消费品牌 TOP100"。 2025高品质消费品牌TOP100行业趋势观察④ 为进一步助力经济高质量发展、提振消费信心,南方都市报近日启动"高品质消费观察"系列专题,聚焦 颜值经济、运动户外、食品康养、智能消电、宠物经济、体验经济、兴趣消费、跨境出海、消费科技九 大热门赛道,展开系列调研、走访和报道。 在筛选入围品牌的过程中,我们发现AI+硬件正成为涵盖功能性产品、玩具产品和家电产品等多个赛 道的重要趋势。随着多模态能力和相关模型能力的进化,国内外的科技巨头或初创公司已推出了一批 AI硬件,利用AI能力,这批产品正在逐渐破圈。 去年WWDC上苹果曾宣布将Apple Intelligence集成到包括Siri在内的一系列程序中,并与 OpenAI合作将ChatGPT引入iPhone等设备。但北京时间6月10日凌晨1点,苹果WWDC25开 发者大会开场没多久,苹果软件主管Craig Federighi就宣布,相关更新可能要推迟到明年 ...
AI自发形成人类级认知!我国科技学家揭示多模态大模型涌现类人物体概念表征
Huan Qiu Wang· 2025-06-10 02:09
研究人员从海量大模型行为数据中提取出66个"心智维度",并为这些维度赋予了语义标签。研究发现, 这些维度是高度可解释的,且与大脑类别选择区域(如处理面孔的FFA、处理场景的PPA、处理躯体的 EBA)的神经活动模式显著相关。 研究还对比了多个模型在行为选择模式上与人类的一致性(Human consistency)。结果显示,多模态大 模型(如 Gemini_Pro_Vision、Qwen2_VL)在一致性方面表现更优。此外,研究还揭示了人类在做决策 时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义标签和抽象概念。本研究表 明大语言模型并非"随机鹦鹉",其内部存在着类似人类对现实世界概念的理解。 相关研究成果以Human-like object concept representations emerge naturally in multimodal large language models为题,发表于《自然·机器智能》(Nature Machine Intelligence)。(青山) 那么,大语言模型(LLMs)是否能从语言和多模态数据中发展出类似人类的物体概念表征? 近日,中国科学院 ...
生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效
硬AI· 2025-06-09 14:07
北京生数科技有限公司首席执行官骆怡航发表了主题演讲——"多模态生成:从模型走向生产",主要围绕 多模态大模型,特别是视频生成在产业落地中的机遇、挑战,并分享了生数科技(Vidu)的解决方案和成 果。 以下是演讲亮点: 多模态大模型迎来规模化生产落地的拐点:第一,我们看到技术迭代非常迅速,音视频的生成模型无论在 效果、速度、成本上都快速提升。其次,行业需求特别旺盛。第三,很多行业视频内容相关的各种产业落 地节奏加快。 今年包括再往后要同时具备四个条件:内容的创意,内容质量、生成的效率和生产的成本。 如果具备了内容的质量好于传统方式,同时生产效率和生产成本,在我看来效率必须比传统的方式要至少 百倍的提升。 对于生数科技来讲,我们聚焦在多模态生成,现在主要以视频生成为主,包括音视频的部分,未来我们会 延展到3D叙事空间等等。目前我们聚焦在专业的用户和企业用户,致力于把模型推动到8大行业、30大场景 里面。 Vidu 2.0把速度极大做了提升,可以达到 5 秒技术生成。同时Vidu Q1 进一步提升,包括高清的版本,还有 首尾帧,还有动漫等方向。同时对于音效还有音频我们做了深化。 从Vidu上线以来,专业创作的占比增 ...
我国科学家研究揭示多模态大模型概念表征机制
Xin Hua She· 2025-06-09 09:32
传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正"理解"物体含义。何晖光说:"当 前人工智能可以区分猫狗图片,但这种'识别'与人类'理解'猫狗的本质区别仍有待揭示。" 研究团队从认知神经科学经典理论出发,设计了一套融合计算建模、行为实验与脑科学的创新范式,并 构建了人工智能大模型的"概念地图"。 何晖光介绍,研究团队从海量大模型行为数据中提取出66个"心智维度",并为这些维度赋予了语义标 签。通过研究发现这些维度是高度可解释的,且与大脑类别选择区域的神经活动模式显著相关。研究还 对比了多个模型在行为选择模式上与人类的一致性,结果显示多模态大模型在一致性方面表现更优。 此外,研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依 赖语义标签和抽象概念。本研究表明大语言模型内部存在着类似人类对现实世界概念的理解。(记者宋 晨) 记者6月9日从中国科学院自动化研究所获悉,该所与中国科学院脑科学与智能技术卓越创新中心的联合 团队在《自然·机器智能》发表相关研究,首次证实多模态大语言模型能够自发形成与人类高度相似的 物体概念表征系统,为人工智能认知科学提供了新路径,也为构建类人 ...
聚焦多模态:ChatGPT时刻未到,2025大模型“变慢”了吗
Bei Jing Shang Bao· 2025-06-08 13:27
以ChatGPT为代表的语言类大模型重塑内容生成方式时,多模态模型还在等待它的"iPhone时刻"。近日召开的2025智源大会上,智源研究院(以下简称"智 源")正式发布了包括原生多模态世界模型Emu3等"悟界"大模型系列,Emu3实现了文本、图像、视频的任何组合理解与生成,通过单一模型就可以捕捉世 界的规律。 AI发展之快,每年都有新话题,2024年,价格战是大模型的关键词,2025感到风向变了,大模型应用百花齐放,反而有种大模型发展"变慢"了的体感。 事实上,市场上新旧产品同台竞技,呈现出立体、多维度的思考,多模态大模型更是如此。按照当前技术成熟度评估,视频生成等核心能力仍处于GPT-2到 GPT-3的过渡阶段,与产业预期存在显著差距。多模态模型将经历更长的技术沉淀期,这也意味着更大的想象力空间。 技术路线未收敛 大模型爆发至今,很多时候无外乎是选对了方向,又懂得流量密码,一个现象级产品就横空出世了。事实上,这种选择需要前期足够多的思考、实践和勇 气。 严格来说,Emu3是智源2024年10月发布的多模态模型,目前智源已在训练下一个版本。基于Emu3,智源还官宣了全球首个脑科学多模态通用基础模型见微 Br ...
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 05:02
ReasonMap团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。 然而,一个关键问题仍然值得追问: 多模态大模型(MLLMs),真的能"看懂图"了吗? 特别是在面对结构复杂、细节密集的图像时,它们是否具备细粒度视觉理解与空间推理能力,比如挑战一下高清 地铁图 这种。 为此,来自西湖大学、新加坡国立大学、浙江大学、华中科技大学的团队提出了一个全新的评测基准 ReasonMap 。 看得出来北京、杭州的地铁图难倒了一大片模型。 这是首个聚焦于 高分辨率交通图(主要为地铁图)的多模态推理评测基准,专为评估大模型在理解图像中细粒度的结构化空间信息 方面的 能力而设计。 结果发现,当前主流开源的多模态模型在ReasonMap上面临明显性能瓶颈,尤其在 跨线路路径规划 上常出现视觉混淆或站点遗漏。 而经强化学习后训练的闭源推理模型(如 GPT-o3)在多个维度上 显著优于 现有开源模型,但与人类水平相比仍存在明显差距。 在面对不同国家地区的地铁图中,四个代表性 MLLM(Qwen2.5-VL-72B-I(蓝色)、 I ...
预见 2025:《2025 年中国多模态大模型行业全景图谱》(附市场现状、竞争格局和发展趋势等)
Sou Hu Cai Jing· 2025-06-06 14:09
行业主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 腾讯 ( 00700.HK, TCEHY ) ;科大讯飞 ( 002230.SZ ) ;万兴科技 ( 300624.SZ ) ;三六零 ( 601360.SH ) ;昆仑万维 ( 300418.SZ ) ; 云 从科技 ( 688327.SH ) ;拓尔思 ( 300229.SZ ) 等 本文核心数据:备案数量 ; 收费模式 ; 市场规模 ; 区域占比等 产业概况 1、定义及特征 多模态 ( Multimodality ) 是指集成和处理两种或两种以上不同类型的信息或数据的方法和技术。在机器学 习和人工智能领域,多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。多 模态系统的目的是利用来自多种模态的信息来提高任务的性能,提供更丰富的用户体验,或者获得更全面 的数据分析结果。多模态大型语言模型 ( Multimodal Large Language Models,简称 MLLMs ) 是一类结合了 大型语言模型 ( Large Language Models,简称 ...