Workflow
多模态大模型
icon
Search documents
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位· 2025-06-04 05:21
国产开源模型又上大分,这次是在长视频理解领域: 智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型 Video-XL-2 。 长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在 效果、计算开销和运行效率等方面仍存在明显短板。 而Video-XL-2相较于上一版本的Video-XL,在多个维度全面优化了开源多模态大模型对长视频内容的理解能力: 目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 技术简介 在模型架构设计上,Video-XL-2主要由三个核心组件构成: 视觉编码器(Visual Encoder) 、 动态 Token 合成模块(Dynamic Token Synthesis, DTS) 以及 大语言模型(LLM) 。 △ Video-XL-2的模型架构示意图 具体而言,Video-XL-2 ...
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
Qian Zhan Wang· 2025-06-03 05:12
转自:前瞻产业研究院 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 多模态大模型的核心技术-表征 表征学习是多模态任务的基础,其中包含了一些开放性问题,例如:如何结合来源不同的异质数据,如 何处理不同模态的不同噪声等级,测试样本的某种模态缺失怎么办。相较于多模态,基于单模态的表征 学习已被广泛且深入地研究。在Transformer出现之前,不同模态所适用的最佳表征学习模型不同,例 如,CNN广泛适用CV领域,LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独 提取N个模态的特征,之后采用Joint或Coordinated结构进行训练。不过这种思路在很快改变,随着越来 越多工作证实Transformer在CV和NLP以及Speech领域都可以获得极佳的性能,仅使用Transformer统一 多个模态、甚至 ...
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心· 2025-06-03 04:06
机器之心发布 机器之心编辑部 长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算 开销和运行效率等方面仍存在明显短板。 近日,智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型:Video-XL-2。相较于上一版本的 Video-XL,该模型在多个维度全面优 化了多模态大模型对长视频内容的理解能力: 目前,Video-XL-2 的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。 技术简介 图 1:Video-XL-2 的模型架构示意图 图 3. Chunk-based Prefilling 效果更佳:Video-XL-2 在长视频理解任务中表现出色,在 MLVU、Video-MME、LVBench 等主流评测基准上达到了同参数规模开源模型的领先 水平。 长度更长:新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入。 速度更快:Video-XL-2 大幅提升了处理效率,编码 2048 帧视频仅需 12 秒,显 ...
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
Qian Zhan Wang· 2025-06-01 05:09
转自:前瞻产业研究院 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 多模态大模型的模型路径 多模态大模型的探索正在逐步取得进展,近年来产业聚焦在视觉等重点模态领域突破。理想中的"Any- to-Any"大模型,Google Gemini、Codi-2等均是处于探索阶段的方案,其最终技术方案的成熟还需要在 各个模态领域的路线跑通,实现多模态知识学习,跨模态信息对齐共享,进而实现理想中多模态大模 型。现阶段产业主要的工作还是聚焦在视觉等典型的重点模态,试图将Transformer大模型架构进一步在 图像、视频、3D模型等模态领域引入使用,完善各个模态领域的感知和生成模型,再进一步实现更多 模态之间的跨模态打通和融合。 多模态大模型的图像模型 早在2023年LLM的流行之前,过去产业界在对于图像的理解和生成模型领域已经打下了坚实 ...
GPT-Kline:MCoT与技术分析
HTSC· 2025-05-31 10:25
Investment Rating - The report does not explicitly state an investment rating for the industry or the specific technology discussed. Core Insights - The research explores the application of Multimodal Chain of Thought (MCoT) in investment research, particularly in technical analysis using K-line charts, leading to the development of an automated platform called GPT-Kline [1][4][13]. - MCoT enhances the reasoning capabilities of large models by combining multimodal understanding with logical reasoning, allowing for more sophisticated analysis of complex tasks [2][21]. - The O3 model, launched by OpenAI, demonstrates impressive image reasoning capabilities, marking a significant step towards achieving general artificial intelligence (AGI) [2][37]. Summary by Sections Multimodal Reasoning - Multimodal collaboration is essential for large models to progress towards AGI, requiring them to be proficient in various modalities beyond just language [17]. - MCoT represents a significant advancement, enabling models to think based on images rather than merely perceiving them [21][31]. Application in Investment Research - The report highlights the potential of MCoT in technical analysis, particularly with K-line charts, which encapsulate vital trading information and patterns suitable for analysis [3][42]. - The O3 model's application in technical analysis shows its ability to process K-line images, perform necessary pre-processing, and generate analytical reports [3][43]. Development of GPT-Kline - GPT-Kline integrates MCoT with the capabilities of large models to create a specialized tool for K-line technical analysis, automating the entire analysis process from drawing to reporting [4][65]. - The platform features a user-friendly web interface designed for intuitive interaction, allowing users to engage with the analysis process effectively [4][83]. Model Comparison and Performance - The report compares various large models, including OpenAI's GPT-4o and Gemini-2.5 series, assessing their capabilities in K-line analysis and identifying Gemini-2.5 Flash as a strong performer [66][96]. - The analysis results indicate that while OpenAI's models tend to be conservative in their outputs, the Gemini models provide more comprehensive and accurate annotations [95][96].
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”
量子位· 2025-05-31 03:45
FineHARD团队 投稿 量子位 | 公众号 QbitAI 如何让CLIP模型更关注细粒度特征学习,避免"近视"? 360人工智能研究团队提出了 FG-CLIP ,可以明显缓解CLIP的"视觉近视"问题。 让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。 模型成功的关键在于 高质量数据 。 就在最近,冷大炜博士团队将这一"秘籍"开源: FineHARD高质量图文对齐数据集 。该数据集主打两个核心特点: 细粒度+难负样本 。 FineHARD是FG-CLIP模型背后的高质量图文对齐数据集,以规模化与精细化为特色, 包含1200万张图像 及其对应的长、短描述文本,覆 盖 4000万 个边界框,每个边界框均附带细粒度区域描述(Fine-Grained Regional Description)。 此外,FineHARD创新性地引入了 1000万组 细粒度难负样本(Hard Fine-grained Negative Samples),这些经过算法筛选的干扰样本能 够有效提升模型对相似目标的区分能力。 基于该数据集训练的FG-CLIP已被ICML25接收,它在各种下游任务中显著优于原始CLIP和其他最先 ...
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
量子位· 2025-05-30 07:10
MME-VideoOCR团队 投稿 量子位 | 公众号 QbitAI 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至 动态视频 时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。 主要贡献如下: 构建精细的任务体系: 高质量、大规模数据集: 包含了 1,464 个精选视频片段,覆盖不同的分辨率、时长与场景。 构建了 2,000 条高质量、经人工标注的问答对,确保评测的精确性。 揭示当前 MLLM 的能力边界与局限: 研究背景 视频作为一种信息密度更高、场景更复杂的模态,其 OCR 任务的难度远超静态图像: 1 运动模糊、光影变化、视角切换以及复杂的时序关联 等视频的动态因素,都对 MLLM 的视频文字识别构成了显著的障碍。 2 视频中的 文字信息形式复杂多样 ,既可能出现在画面主体、背景场景,也可能以屏幕注释、水印或弹幕的方式存在。这要求模型能够建立 稳定的时空视觉-文本关联,以实现对分布在不同位置与时间段文字信息的准确识别、整合与 ...
云从科技多模态大模型登顶OpenCompass全球多模态榜单
news flash· 2025-05-29 07:12
云从科技多模态大模型登顶OpenCompass全球多模态榜单 金十数据5月29日讯,近日,云从科技自主研发的从容大模型在国际评测平台OpenCompass最新全球多 模态榜单中,以80.7分的综合成绩登顶榜首。面对涵盖视觉感知、认知理解与跨领域应用的8大核心数 据集,该模型在医学健康、数理逻辑、艺术设计等十余个专业领域表现突出。 (36氪) ...
2025年中国多模态大模型行业市场规模、产业链、竞争格局分析及行业发趋势研判:将更加多元和深入,应用前景越来越广阔[图]
Chan Ye Xin Xi Wang· 2025-05-29 01:47
内容概要:多模态大模型指能够同时处理和理解多种模态数的大规模人工智能模型。作为近年来人工智 能领域的一项突破性技术,以其卓越的数据处理能力和丰富的应用场景吸引了众多关注。在强劲的市场 需求以及国家政策的支持下,我国大模型市场规模不断增长。2024年中国多模态大模型市场规模为 156.3亿元,较2023年增加65.4亿元;预计2025年中国多模态大模型市场规模为234.8亿元。多模态大模 型在数字人领域的应用份额最大;其次是游戏与广告商拍领域;第三是智能营销、社交媒体领域。多模 态大模型作为新一代人工智能技术范式,正逐步成为推动相关产业创新和发展的重要力量。随着技术的 不断进步,未来,多模态大模型行业发展将呈现出更加多元和深入的趋势,多模态大模型将更加智能、 更加人性化,应用前景将越来越广阔。 多模态大模型行业发展至今,共经历了任务导向阶段、觉一语言预训练阶段,以及多模态大模型阶段。 其中,在多模态研究的初期.模型设计主要集中在解决具体的应用问题上;视觉-语言预训练阶段是强 调跨模态理解与生成能力的同步提升;多模态大模型已经实现一种更为灵活的交互方式。 三、多模态大模型行业发展现状 上市企业:阿里巴巴(0998 ...
整理:每日科技要闻速递(5月28日)
news flash· 2025-05-27 23:27
1. 三星计划2028年推出玻璃中介层。 2. 三星调整HBM团队组织架构,押宝定制化HBM。 3. 三星将在6月后停止接受多层单元NAND订单。 4. 台积电将生产基于MicroLED的光通信互连产品。 5. 台积电将在德国慕尼黑设立欧洲芯片设计中心。 人工智能: 其他: 1. 比亚迪刀片电池提前通过新国标。 2. 小马智行与迪拜道路交通管理局达成战略合作。 3. 卢伟冰:截至5月26日,小米SU7 Ultra锁单量达到2.3万辆。 4. 部分车企接相关部门通知参与研讨会,对"零公里"二手车等内容进行研讨。 5. 长安汽车董事长朱华荣:预计不超过2年,行业竞争将回归较良性的环境。 金十数据整理:每日科技要闻速递(5月28日) 新能源汽车: 集成电路(芯片): 1. 上海首个交通领域多模态大模型问世,有望让路口通行效率提升15%。 2. 英媒:英伟达供应商解决机架过热问题,开始出货Blackwell芯片。 3. 腾讯云推出数据加速器GooseFS 2.0,为所有人工智能业务场景提供全面支持。 1. 美团澄清:"不惜一切代价"为指向反内卷。 2. Salesforce拟80亿美元收购Informatica。 3 ...