多模态大模型
Search documents
合合信息二次递表港交所 扫描全能王已上线超15年、MAU超1亿
Zhi Tong Cai Jing· 2025-12-29 23:29
据港交所12月29日披露,上海合合信息科技股份有限公司(688615.SH)向港交所主板提交上市申请,中金公司为其独家保荐人。该公司曾于今年6月26日向港 交所递交过上市申请。 公司简介 据招股书,自成立以来,合合信息始终致力以AI技术创新赋能,向全球亿级用户及多元化行业企业客户提供产品。凭借超过18年的人工智能研究与应用实 践积累,合合信息已成为全球文本智能技术领域的领军者,其核心驱动力来自多模态大语言模型。该模型能够同步处理文本、图像、视频等多种形式的数据 输入,并生成多样化的输出模态,从而实现信息抽取、文档解析与修复、图像增强等多元化的AI功能。该公司的业务已覆盖全球超过200个国家和地区。 根据灼识咨询,在2024年全球C端效率类AI产品MAU(月活跃用户数)上亿的企业中,按相应产品的收入计,合合信息位居中国第一名、全球第五名,并保持 强劲的增长态势。 基于多年AI技术的积累和对用户需求的深入洞察,合合信息自主研发并成功推出了包括扫描全能王、名片全能王、启信宝在内的一系列C端产品。其中,根 据灼识咨询,按2025年9月的月活跃用户数计,扫描全能王是全球用户规模最大的图像文本处理AI产品,且是一款已上线 ...
火山引擎成为总台春晚独家AI云合作伙伴
Xin Lang Cai Jing· 2025-12-29 04:37
责任编辑:韦子蓉 新浪科技讯 12月29日下午消息,中央广播电视总台《2026年春节联欢晚会》分会场宣布,火山引擎成 为2026年春晚独家AI云合作伙伴。 火山引擎表示,基于业界前沿的多模态大模型和云计算技术,火山引擎将深度参与到总台春晚节目、线 上互动和视频直播中,以科技之力为这场全球华人的团圆盛宴添彩。 据了解,作为字节跳动旗下的云和AI服务平台,火山引擎在过去5年为抖音的春晚直播提供技术支撑, 并圆满支持了抖音在2021年总台春晚的703亿次红包互动。 责任编辑:韦子蓉 新浪科技讯 12月29日下午消息,中央广播电视总台《2026年春节联欢晚会》分会场宣布,火山引擎成 为2026年春晚独家AI云合作伙伴。 火山引擎表示,基于业界前沿的多模态大模型和云计算技术,火山引擎将深度参与到总台春晚节目、线 上互动和视频直播中,以科技之力为这场全球华人的团圆盛宴添彩。 据了解,作为字节跳动旗下的云和AI服务平台,火山引擎在过去5年为抖音的春晚直播提供技术支撑, 并圆满支持了抖音在2021年总台春晚的703亿次红包互动。 ...
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白
机器之心· 2025-12-28 04:44
Core Insights - The article discusses the rapid paradigm shift in multimodal large language models, focusing on the development of unified full-modal models capable of processing and generating information across various modalities, including language, vision, and audio [2][4] - The driving force behind this shift is the complexity of the real physical world, where humans have historically relied on multimodal information to understand and interact with their environment [3] - A new benchmark called FysicsWorld has been introduced to evaluate models' capabilities in understanding, generating, and reasoning across multiple modalities in real-world scenarios [4][10] Summary by Sections Introduction to Multimodal Models - Multimodal models are evolving from simple combinations of visual and textual data to more complex integrations that include audio and other sensory modalities [12] - There is a growing expectation for these models to accurately understand and interact with complex real-world environments [12] FysicsWorld Benchmark - FysicsWorld is the first unified benchmark designed to assess models' abilities in multimodal tasks, covering 16 tasks that span various real-world scenarios [6][10] - The benchmark includes a cross-modal complementarity screening strategy to ensure that tasks require genuine multimodal integration, avoiding reliance on single-modal shortcuts [8][23] Evaluation Framework - The evaluation framework of FysicsWorld is comprehensive, covering tasks from basic perception to high-level interactions, ensuring a thorough assessment of models' capabilities [15][17] - The benchmark aims to address the limitations of existing evaluation systems, which often focus on text-centric outputs and lack real-world applicability [16] Performance Insights - Initial evaluations using FysicsWorld reveal significant performance gaps among current models, particularly in tasks requiring deep cross-modal reasoning and interaction in real-world contexts [31] - The results indicate that while models have made progress in basic multimodal tasks, they still struggle with complex scenarios that require robust integration of multiple sensory inputs [31][34] Future Directions - The article emphasizes the need for further advancements in cross-modal integration, dynamic environment understanding, and physical constraint reasoning to achieve true full-modal intelligence [35] - FysicsWorld serves as a critical tool for researchers to map and improve models' capabilities in real-world multimodal interactions [36]
百度X-Driver:可闭环评测的VLA
自动驾驶之心· 2025-12-28 03:30
>>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 作者 | AIming 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1907444302092698547 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 VLA01 02系列中EMMA OpenEMMA都没有在闭环的场景下验证,其实很关键,因为开环和闭环评测根本不是一回事,开环的指标也并不靠谱,这个志琦大佬的文章 很早就讨论的这个问题: 那么前段时间,哈工大和百度的X-Driver:Explainable Autonomous Driving with Vision-Language Models 终于有闭环评测指标了,闭环因为要实际控车,所以这种闭环 指标才是衡量一个端到端方案的性能的更合理方案。今天继续来学习,看看闭环怎么做~ X-Driver Motivation 目前基于 MLLM 的框架难以进行闭环评估,在现实世界的驾驶场景中存在幻觉和缺乏稳定轨迹输出,现有的方案在闭环评估中的成功率仍然很低,因此把怎么把 ...
首个多轮、开放视角视频问答基准,系统分类9大幻觉任务
3 6 Ke· 2025-12-26 07:16
为填补这一空白,来自国防科技大学与中山大学的研究团队提出了WildVideo,一个面向真实世界视频-语言交互的、系统性的多轮开放问答评测基准。 新智元报道 【导读】基准WildVideo针对多模态模型在视频问答中的「幻觉」问题,首次系统定义了9类幻觉任务,构建了涵盖双重视角、支持中英双语的大规模高 质量视频对话数据集,采用多轮开放问答形式,贴近真实交互场景,全面评估模型能力。 近年来,大模型在多模态理解领域进展显著,已能够在开放世界中处理图文甚至视频内容。 然而,一个普遍且严重的问题「幻觉」始终制约着其实际应用。 尤其在动态、连续的视觉场景中,模型可能生成与视频内容矛盾、违背常识或在多轮对话中前后不一致的回答。 当前主流评测基准多集中于单轮、单视角、选择题型的设定,难以真实反映模型在开放、连续、交互式对话场景中的能力与缺陷。这一评测体系的局限, 阻碍了我们对模型在实际应用中表现的理解与优化。 论文地址:https://ieeexplore.ieee.org/document/11097075 项目主页:https://chandler172857.github.io/WildVideo-leaderboard ...
字节AI1080天闪电逆袭:从后知后觉到AGI全面发力
2 1 Shi Ji Jing Ji Bao Dao· 2025-12-25 03:56
站在2025年的岁末回望,字节已全面投入人工智能领域将近三年。 字节跳动用三年完成AI战略转型,从初期落后到构建全栈能力。 2023年初,当GPT-4如海啸般席卷全球科技界,字节内部却弥漫着浓浓的焦虑——在生成式AI这场决定未来十年格局的竞赛中,他们似乎已经落后。彼 时,公司尚无统一的大模型战略,多个业务线各自为战,AI Lab早已从"前沿探索"转向"技术中台",研究重心倾斜于推荐优化,技术积累与时代浪潮之间 出现了一道危险的裂隙。 然而,三年之后的今天,字节不仅补上了课,更以惊人的执行力构建起覆盖基础模型、应用产品、开发者生态乃至硬件终端的全栈AI能力。 从仓促组队到全面拥抱AGI,从承认落后到局部领跑,字节用一场自上而下的组织革命与技术重构,完成了一次堪称教科书式的战略转身。 截至2025年12月,火山引擎披露已有超50万家企业接入字节AI相关能力;豆包作为核心产品,用户规模与商业化进程持续提速,成为国内AI原生应用赛 道的标杆之一。 这些成绩背后,是一场始于危机、成于决断的AI闪电战。 仓促组队,直面落后 字节并非没有AI基因,但在生成式AI赛道确实错失了先机。 尽管字节以算法驱动内容分发起家,其AI技 ...
理想MindGPT-4o-Vision技术报告压缩版
自动驾驶之心· 2025-12-25 03:24
作者 | 理想TOP2 来源 | 理想TOP2 原文链接: 理想MindGPT-4o-Vision技术报告压缩版 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 2025年12月2日理想发布MindGPT-4ov技术报告 链接: https://arxiv.org/abs/2512.02895 通用能力与垂直领域适配的权衡冲突。 将通用多模态大模型(MLLM)迁移至垂直应用面临两个主要矛盾: 灾难性遗忘 (Catastrophic Forgetting):注入领域特定知识往往导致模型原有的通用理解能力(General Capabilities)退化。 缺乏系统的后训练方法论:现有方法要么忽视数据质量与成本控制,要么在优化领域能力时牺牲了基础能力和用户体验,缺乏涵盖数据生产、训练到部 署的全链路工程方案。 当前多模态模型训练中存在的三个关键低效与偏差现象: 资源分配粗放:传统数据合成方法通常对所有数据进行均等处理,忽视了数据本身信息密度的差异,导致高价值数据挖掘不足,低 ...
都是TOP人才!跑遍全球,和机器之心共聚AI学术顶会
机器之心· 2025-12-23 09:36
2025 年,AI 依然在加速奔跑。从多模态大模型到智能体系统的演进,从基础理论的突破到产业应用的深化,技术的每一次跃迁,都在重塑未来的轮廓。在海量 学术成果爆发的背景下,单纯的阅读已难以追赶技术的迭代速度,我们笃信——再强大的算法,也需要人与人的连接;再前沿的突破,也需要面对面的对话。 今年,带着这份相信,我们出发了。从北京的四季轮转到江南的桂香满庭,从新加坡的星洲夜语到维也纳的夏风微拂,从温哥华的学术静谧到圣地亚哥的海边星 光……我们围 绕 ICLR、CVPR、ACL、ICML、IROS、EMNLP、NeurIPS 等 AI 学术会议,跨越 8 座城市,落地 11 场活动。 在时差交替的版图上,我们找到了共同的频率,写下了这些属于 2025 的记忆与数字: 2025,精彩回顾 从论文的深度解读,到人才晚宴上的热烈交谈,"论文分享会"与"人才 Meetup"两大系列活动,贯穿全年,覆盖海内外,旨在打造一个 有温度、有深度、也有价值 的 AI 交流生态圈: 2026,继续出发 旧章已谱,新篇待书。2025 年的圆满收官,是 2026 年更精彩旅程的起点。我们已经初步规划了覆盖 ICLR、CVPR、ACL、IC ...
智谱等2家企业完成境外上市备案
Sou Hu Cai Jing· 2025-12-23 06:15
12月22日晚,中国证监会对智谱、MiniMax(上海稀宇极智科技有限公司)境内企业境外发行上市予以确认,2家均为赴港上市备案。 1、智谱 拟发行不超过43,032,400股境外上市普通股并在香港联合交易所上市。 港交所12月19日披露,智谱通过上市聆讯。 智谱华章专注于认知智能大模型的研发,核心业务围绕通用大模型的开发、服务提供及技术开源展开,包括通用语言模型(如GLM系列)和智能体(Agent)模型 的构建。截至2025年9月,其GLM模型已赋能全球12000家企业客户和逾8000万台终端设备。 财务方面,2022至2024年,及2025年前六个月,智谱营收分别为0.57亿元、1.25亿元、3.12亿元、1.91亿元,相应的净亏损分别为1.44亿元、7.88亿元、29.58 亿元、23.58亿元。 2、MiniMax 拟发行不超过33,577,240股境外上市普通股并在香港联合交易所上市。 港交所12月21日披露,MiniMax通过上市聆讯。 MiniMax从事多模态大模型的研发与商业化应用,业务覆盖文本生成、语音合成、视频生成、虚拟角色、智能体(Agent)以及全模态交互平台等多个方向。截 至2025年 ...
海外市场收入贡献占比超70% MiniMax何以用385人“小团队”撬动全球AGI市场?
Mei Ri Jing Ji Xin Wen· 2025-12-21 14:49
Core Insights - MiniMax is poised to set a record for the fastest IPO from establishment to listing among AI companies, having been founded only four years ago [1] - The company aims to be the "first global AGI stock" listed on the Hong Kong Stock Exchange, showcasing its technological advancements and global market reach [2] Technological Advancements - MiniMax has developed a multi-modal general model matrix, with its open-source text model M2 ranking in the top five globally and first in the open-source category according to the Artificial Analysis (AA) evaluation [2][14] - The company has launched a series of AI-native products, including MiniMax Agent and Talkie, which support multiple languages and cater to both consumer and business markets [3][7] Global Market Strategy - MiniMax has established a global presence, serving over 200 million individual users and 100,000 enterprises across more than 200 countries and regions [3] - The company reported a revenue growth of over 170% year-on-year for the first nine months of 2025, with over 70% of its revenue coming from international markets [3] Business Model and Revenue Streams - MiniMax has diversified its revenue channels, including subscription services, in-app purchases, and enterprise APIs [9] - The number of paid users for its AI-native products is projected to grow from approximately 119,700 in 2023 to about 177,160 by September 30, 2025 [8] Team and Management - The company has a youthful workforce, with an average employee age of 29 and 74% of its staff in research and development roles [11] - The flat management structure has contributed to its rapid technological advancements and global product development [11] Vision and Future Outlook - MiniMax's founder emphasized the importance of serving customers directly and maintaining a technology-driven approach as core principles for the company's growth [6] - The company aims to make AGI accessible and beneficial to the public, moving beyond theoretical models to practical applications [15][16]