多模态大模型

Search documents
2025年了,生成和理解多模态大模型发展到哪一步了?
自动驾驶之心· 2025-08-25 23:34
作者 | vasgaowei 编辑 | 大模型之心Tech 首先要说明的是,本文谈的"生成和理解多模态大模型"主要指图片理解和图片生成一体的多模态大模型,至于更多模态理解和生成的(俗称Omini- LLM)大模型就不在谈论之列了,原因是这一个方向的学术界论文相比"图片理解和图片生成一体的多模态大模型"来说还是显著少了。不过也可以推荐 一些早期的论文,供大家参考,比如Google的Unified-IO和Unified-IO-2(这个系列的工作可以看作是Omini-LLM的早期代表作)、阿里的OFA、复旦的 AnyGPT、meta的CM3Leon和Chameleon(多模态预训练)还有ANOLE、VITA等工作,这些工作其实也对后面的一系列工作有很大的影响,其中 AnyGPT、CM3Leon、Chameleon和ANOLE也比较新了,所以也会介绍一下。 Unified-IO 原文链接: https://zhuanlan.zhihu.com/p/1927391836932142920 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交 ...
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
量子位· 2025-08-25 15:47
上海交通大学王德泉教授课题组 投稿 量子位 | 公众号 QbitAI 近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试(如MMMU)中捷报频传,纷纷刷榜成功。 然而,这些令人瞩目的进展也带来了一个愈发严峻的问题:当现有的"题库"逐渐被提前预训练进模型,我们如何才能持续、准确地评估这些顶 尖AI的真实能力? 为了应对这一挑战,上海交通大学王德泉教授课题组巧妙地将"动态基准"这一理念与不断更新的科学前沿相结合,提出了 MAC(多模态学术 封面)基准 :既然科学知识本身在不断演进,为什么不用最新的科学内容来测试AI呢? 研究团队利用《Nature》《Science》《Cell》等188种顶级期刊的最新封面作为测试素材,从超过25,000个图文对中构建测试集。这些期刊 每周或每月都会发布新刊,每期封面都经过顶尖科学家和专业编辑精心打造,蕴含着最前沿、最复杂的科学概念,从而 评测多模态大模型是 否能够理解艺术化表达的视觉元素与科学概念之间的深层关联。 | MLLMs | | Image2Text Level | | | | Text2Image Level | | | | --- ...
AI动态汇总:智元推出机器人世界模型平台genieenvesioner,智谱上线GLM-4.5a视觉推理模型
China Post Securities· 2025-08-25 11:47
证券研究报告:金融工程报告 研究所 分析师:肖承志 SAC 登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com 研究助理:冯昱文 SAC 登记编号:S1340124100011 Email:fengyuwen@cnpsec.com 近期研究报告 《小市值占优,低波反转显著——中邮 因子周报 20250727》 - 2025.07.28 《微盘股的流动性风险在哪?——微 盘 股 指 数 周 报 20250720 》 - 2025.07.21 《大金融表现居前助指数突破,GRU 行 业轮动调入非银行金融——行业轮动 周报 20250713》 - 2025.07.14 《低估值高盈利,基本面表现占优—— 中 邮 因 子 周 报 20250706 》 - 2025.07.07 《基于宏观经济状态划分的 BL 模型与 ETF 实践》 - 2025.07.01 《反转风格显著,小市值回撤——中 邮因子周报 20250622》 - 2025.06.23 《关注基本面支撑,高波风格占优— —中邮因子周报 20250615》 - 2025.06.16 《结合基本面和量价特征的 G ...
自动驾驶转具身智能有哪些切入点?
自动驾驶之心· 2025-08-24 23:32
如果您真的需要,可以关注下我们的公众号,助力学习少踩坑。 这几天很多同学后台私信我们,自动驾驶如何转具身智能?会不会有比较大的gap。从算法维度上看,具身 智能领域基本延续了机器人和自驾的一些算法,比如训练与微调方式、大模型。当然也有很多具体的任务 不太一样,比如数据采集方式、重执行硬件与结构。 我们也创办了一个具身智能全栈学习社区:具身智能之心,平时分享了很多具身智能相关的算法、数据采 集、软硬件方案等。主要方向涉及VLA、VLN、Diffusion Policy、强化学习、机械臂抓取、位姿估计、机 器人仿真、多模态大模型、芯片部署、sim2real、机器人硬件结构等,日常也分享了很多行业与招聘相关内 容。 ...
当虹科技2025年中报简析:营收上升亏损收窄,盈利能力上升
Zheng Quan Zhi Xing· 2025-08-23 22:58
据证券之星公开数据整理,近期当虹科技(688039)发布2025年中报。截至本报告期末,公司营业总收 入1.33亿元,同比上升12.7%,归母净利润-615.24万元,同比上升85.27%。按单季度数据看,第二季度 营业总收入8389.94万元,同比上升50.44%,第二季度归母净利润573.7万元,同比上升130.65%。本报 告期当虹科技盈利能力上升,毛利率同比增幅26.44%,净利率同比增幅81.59%。 本次财报公布的各项数据指标表现尚佳。其中,毛利率42.21%,同比增26.44%,净利率-7.17%,同比 增81.59%,销售费用、管理费用、财务费用总计3564.67万元,三费占营收比26.81%,同比增4.76%,每 股净资产10.07元,同比减5.87%,每股经营性现金流0.0元,同比增100.53%,每股收益-0.05元,同比增 86.49% | 项目 | 2024年中报 | 2025年中报 | 同比增幅 | | --- | --- | --- | --- | | 营业总收入(元) | 1.18亿 | 1.33亿 | 12.70% | | 归母浄利润(元) | -4177.87万 | -61 ...
推荐一个大模型AI私房菜!
自动驾驶之心· 2025-08-23 16:03
自动驾驶VLA这么火,想借这个机会了解更多大模型相关的技术知识,有哪些方向可以做,现在热点在哪里?为此,我们筹备了大模型之心Tech社 区,平台主要关注大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等等。欢迎对大模型技术感兴趣 的小伙伴关注我们~ 如果您想做进一步学习,也欢迎加入我们的大模型之心Tech知识星球。大模型之心Tech知识星球,我们目标是构建一个国内最大的大模型技术社区, 一直在给行业和个人输送各类人才、产业学术信息。目标星球正在快速搭建相关模块,欢迎加入我们与大模型同行。 一个认真做内容的社区,一个培养未来领袖的地方。 ...
格灵深瞳2025年半年度报告:明确“2+2”战略方向 第二季度营收同比增长近70%
Zheng Quan Ri Bao Zhi Sheng· 2025-08-23 03:38
本报讯 (记者李乔宇)8月22日晚间,北京格灵深瞳信息技术股份有限公司(以下简称"格灵深瞳")披 露2025年半年度报告,公司第二季度单季营收同比增长近70%,公司多元化发展逐渐步入正轨。 公告显示,2025年是格灵深瞳改革的关键之年,在稳健转型的过程中,公司围绕多模态大模型持续对重 点领域进行研发投入,巩固在技术层面的领先优势,同时坚定推进"2+2"战略,在智慧金融、城市管理 两大战略赛道,以及政务及特种、智慧教育两大创新领域开展符合国产信创标准的行业级大模型产品研 发,并聚焦行业赛道重建销售团队,提升商业落地能力并优化客户结构。 金融领域作为多模态大模型能力应用的重要场景之一,据了解,格灵深瞳近期对其金融全系列产品进行 了集中发布与升级,正稳步推进AI技术在银行各类核心场景中的规模化落地与应用深化。其推出的"深 瞳金砖银行智算解决方案"及基于此构建的"Super-Agent金融超级助手",聚焦银行多类业务场景,旨在 通过对人员行为、业务流程的智能识别与管理,助力银行解决安全、合规及效率提升等关键问题。目 前,新⼀代Agent平台已在多家银行开展试点工作。应⽤场景也从原先聚焦安保场景升级⾄聚焦银⾏安 防、运 ...
格灵深瞳: 格灵深瞳2025年半年度报告
Zheng Quan Zhi Xing· 2025-08-22 16:29
北京格灵深瞳信息技术股份有限公司2025 年半年度报告 公司代码:688207 公司简称:格灵深瞳 北京格灵深瞳信息技术股份有限公司 北京格灵深瞳信息技术股份有限公司2025 年半年度报告 重要提示 一、 本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确 性、完整性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。 二、 重大风险提示 具体详见本报告"第三节 管理层讨论与分析"之"四、风险因素"。 三、 公司全体董事出席董事会会议。 四、 本半年度报告未经审计。 五、 公司负责人赵勇、主管会计工作负责人吴梦及会计机构负责人(会计主管人员)杜家芳声 明:保证半年度报告中财务报告的真实、准确、完整。 六、 董事会决议通过的本报告期利润分配预案或公积金转增股本预案 无。 七、 是否存在公司治理特殊安排等重要事项 □适用 √不适用 八、 前瞻性陈述的风险声明 √适用 □不适用 本报告所涉及的公司未来计划、发展战略等前瞻性陈述,不构成公司对投资者的实质承诺, 请投资者注意投资风险。 九、 是否存在被控股股东及其他关联方非经营性占用资金情况 否 十、 是否存在违反规定决策程 ...
格灵深瞳: 格灵深瞳2025年度“提质增效重回报”行动方案的半年度评估报告
Zheng Quan Zhi Xing· 2025-08-22 16:28
北京格灵深瞳信息技术股份有限公司 为践行"以投资者为本"的上市公司发展理念,推动上市公司持续优化经营、 规范治理,增强投资者回报、提升投资获得感,保护投资者尤其是中小投资者的 合法权益,北京格灵深瞳信息技术股份有限公司(以下简称"公司")结合经营 发展情况,于 2025 年 4 月制定了 2025 年度"提质增效重回报"行动方案(以下 简称"行动方案")。自行动方案发布以来,公司积极开展和落实相关工作,现 对 2025 年上半年的执行情况进行总结,具体情况如下: 一、聚焦主营业务,提升经营质量 公司以"让 AI 造福人类,让世界更安全更宜居更健康"为愿景,专注于将先 进的计算机视觉、多模态大模型、大数据分析和机器人等技术与应用场景深度融 合,基于国产化芯片,提供面向智慧金融、城市管理、政务及特种、智慧教育等 领域的人工智能产品、智能终端计算设备及解决方案。 模型持续对重点领域进行研发投入,巩固在技术层面的领先优势,同时坚定推进 "2+2"战略,在智慧金融、城市管理两大战略赛道,以及政务及特种、智慧教育 两大创新领域开展符合国产信创标准的行业级大模型产品研发,并聚焦行业赛道 重建销售团队,提升商业落地能力并优化 ...
7000+人围观!具身智能赛道迎来硬核玩家,史河机器人技术直播全景揭秘
机器人大讲堂· 2025-08-22 04:27
在当下的机器人领域,具身智能( Embodied AI)正逐渐成为推动机器人从"可执行"走向"高效卓越"的关键力量。 然而,在当前研究实践中,科研团队普遍面临三大瓶颈:一是硬件平台适配性不足,通用机器人难以满足多模态数据采集的精细化需求;二是算法复现成本高企, 异构数据处理复杂度与模型训练周期形成双重压力;三是 "感知-决策-执行"链路断裂,传感器、机械结构与算法难以协同。 在这一背景下,史河机器人于近日举办了一场以 "具身智能前沿实战"为主题的技术分享直播,吸引了超7000人在线观看。直播中,算法专家胡博士系统解析 VLA (Vision-Language-Action)六大类算法,并展示了如何在真实硬件平台上复现 RDT(Robotics Diffusion Transformer)模型。 不过值得关注的是,整场演示没有停留在理论层面。胡博士不仅逐类解析 VLA算法特点与适用场景,更带领观众一步步了解了RDT模型在真实硬件上的部署与调 试。 而纵观整场直播,不难发现其 "硬核"内容直指当前科研中的痛点——如何将前沿算法与机器人硬件高效结合。 作为一家在移动底盘与复合机器人领域深耕十余年的传统设备供应商,史 ...