多模态大语言模型 - filings, earnings calls, financial reports, news

多模态大语言模型

Search documents

Xin Jing Bao· 2025-06-09 13:01

新京报讯（记者张璐）6月9日，记者从中国科学院自动化研究所获悉，科研人员结合行为实验与神经影像分析，首次证实多模态大语言模型（MLLMs）能够自发形成与人类高度相似的物体概念表征系统。相关研究成果发表于《自然·机器智能》。人类能够对自然界中的物体进行概念化，这一认知能力长期以来被视为人类智能的核心。当我们看到狗、汽车或苹果时，不仅能识别它们的物理特征，比如尺寸、颜色、形状等，还能理解其功能、情感价值和文化意义，这种多维度的概念表征构成了人类认知的基石。研究人员从海量大模型行为数据中提取出66个"心智维度"，并为这些维度赋予了语义标签。研究发现，这些维度是高度可解释的，且与大脑类别选择区域的神经活动模式显著相关。研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断，而大模型则倾向于依赖语义标签和抽象概念。研究表明，大语言模型内部存在着类似人类对现实世界概念的理解。随着ChatGPT等大语言模型（LLMs）的发展，一个根本性问题浮出水面：这些大模型能否从语言和多模态数据中发展出类似人类的物体概念表征？近日，中国科学院自动化研究所神经计算与脑机交互（NeuBCI）课题组与中国科学 ...

人工智能可自发形成人类级认知？中国团队最新研究首次证实

Huan Qiu Wang Zi Xun· 2025-06-09 12:57

该项研究由中国科学院自动化研究所(自动化所)神经计算与脑机交互团队、中国科学院脑科学与智能技术卓越创新中心团队等联合完成，相关成果论文6月9日在国际专业学术期刊《自然·机器智能》上线发表。这不仅为人工智能认知科学开辟了新路径，更为构建类人认知结构的人工智能系统提供了理论框架。来源：中国新闻网中新网北京6月9日电 (记者孙自法)人工智能(AI)能否像人类一样认知和理解事物？中国科学家团队结合行为实验与神经影像分析首次证实，基于人工智能技术的多模态大语言模型能够自发形成与人类高度相似的物体概念表征系统，即人工智能可自发形成人类级认知。本项研究的实验范式示意图。中国科学院自动化所供图论文第一作者、中国科学院自动化所杜长德副研究员介绍说，人类能够对自然界中的物体进行概念化，这一认知能力长期以来被视为人类智能的核心。当人们看到"狗""汽车"或"苹果"时，不仅能识别它们的物理特征(尺寸、颜色、形状等)，还能理解其功能、情感价值和文化意义，这种多维度的概念表征构成了人类认知的基石。近年来，随着ChatGPT等大语言模型的爆发式发展，这些大模型能否从语言和多模态数据中发展出类似人类的物体概念表 ...

研究显示多模态大模型可自发形成类人的物体概念表征

news flash· 2025-06-09 10:40

记者今天(9日)从中国科学院自动化研究所获悉，该研究所神经计算与脑机交互课题组与中国科学院脑科学与智能技术卓越创新中心联合团队结合行为实验与神经影像分析，首次证实多模态大语言模型 (MLLMs)能够自发形成与人类高度相似的物体概念表征系统。这项研究不仅为人工智能认知科学开辟了新路径，更为构建类人认知结构的人工智能系统提供了理论框架。相关研究成果北京时间6月9日在国际学术期刊《自然.机器智能》(Nature Machine Intelligence)发表。(央视新闻) ...

ICML 2025 Spotlight | 多模态大模型暴露短板？EMMA基准深度揭秘多模态推理能力

机器之心· 2025-05-20 04:58

「三个点电荷 + Q、-2Q 和 + 3Q 等距放置，哪个向量最能描述作用在 + Q 电荷上的净电力方向？」在解这道题时，我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型，如 GPT-4o，也可能在理解「同性相斥」的基本物理原则时，错误地判断斥力的方向（例如，错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方）。这个看似简单的物理问题，却暴露了多模态大模型一个「致命缺陷」：当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理！一项最新研究推出的 EMMA 基准测试，如同一面「照妖镜」，揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。目前该研究已被 ICML 2025 接收为 spotlight，代码数据已全部开源！目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力，研究发现：即使最先进的模型 ——Gemini-2.5-pro-exp-03-25 ，或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20% ！标题： Can MLLMs Reason in Multi ...

Gemini-2.5-pro-exp-03-25

Gemini-2.5-pro-exp-03-25

鹅厂放大招，混元图像2.0「边说边画」：描述完，图也生成好了

量子位· 2025-05-16 03:39

西风发自凹非寺量子位 | 公众号 QbitAI 刚刚，鹅厂把文生图卷出了新高度—— 发布混元图像2.0模型（Hunyuan Image 2.0），首次实现毫秒级响应，边说边画，实时生成！用户一边描述，它紧跟着绘制，整个过程那叫一个丝滑。不用等待，专治各种没有耐心。有些画面描述起来太费劲？别急，还有实时绘画板玩法。用户可以手绘想要的元素，然后辅以文字说明，在另一半画板上它立刻就帮你按照草图绘制出来：昨天腾讯混元团队发布了一小段预告视频，吊足了大伙儿的胃口。今天终于正式发布了，真实使用效果到底如何？量子位已抢先拿到测试资格，一起来看看到底怎么个事儿～一手实测实时文生图实测之前，先来看官方给出的一些小tips：实时文生图而且当它把"小女孩"这一主体的模样定下来之后，我们再接着描述对画面做补充，它角色一致性保持得也不错。各种风格都能驾驭：打开腾讯混元官网我们就直奔实时文生图，然后随便输入了一句话。果真是一边打字生图直接跟着一起变换，顺畅～模型主打真实感、去AI味，真实场景生图效果会更好模型是英文数据训练为主，有一些中文不能识别的概念，用英文输入会更好优先推荐16 ...

混元图像2.0（Hunyuan Image 2.0）

文生图

多模态大语言模型

Software

混元图像2.0（Hunyuan Image 2.0）

推出金融交易AI Agent，可全天候智能盯盘，这家新加坡金融企业获1000万美元融资｜早起看早期

36氪· 2025-05-12 23:56

以下文章来源于硬氪，作者胡依婷硬氪 . 专注全球化、硬科技报道。36kr旗下官方账号。因此，RockFlow研发团队基于自研架构，结合多模态⼤语⾔模型（LLM）、Fin-Tuning、RAG、MultiAgent和CoT等前沿技术，开发了⼀套适合金融投资场景的AI Agent架构。借助该架构，AI模型的理解和⽣成能⼒都得以提升，其还能实时高效处理多源数据分析，在复杂的⾦融环境中进⾏⾼效的决策和预测，提供更精准的⾦融分析和投资建议，实现成本和风险控制。在投资交易场景中，RockFlow的AI Agent可将传统复杂流程抽象为实时信息获取、分析、交易策略构建、订单执⾏四⼤核⼼环节，解决最核心的"买什么"和"怎么买"两⼤痛点。首先，RockFlow的AI Agent将实时监控市场动态，分析包括财务数据、社交媒体情绪、公司公告等在内的大量数据，为用户展示个性化的实时交易机会。用户可以随时方便浏览，并一键下单。 Bobby将于近期全球上线。文｜胡依婷编辑｜袁斯来来源｜硬氪（ID：south_36kr）封面来源｜企业官方硬氪获悉，近日新加坡人工智能金融科技公司RockFlow宣 ...

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

量子位· 2025-05-03 04:05

于恩投稿量子位 | 公众号 QbitAI 超越YOLOv3、Faster-RCNN，首个在COCO2017 val set上突破30AP的纯多模态开源LLM 来啦！华中科技大学、北京邮电大学等多所高校研究团队共同推出的 Perception-R1 （PR1），在视觉推理中最基础的感知层面，探究rule- based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉（计数，通用目标检测）以及视觉语言（grounding，OCR）任务，实验结果展现出在模型感知策略上的巨大潜力。然而，在识别物体和真正以细致入微的理解和逻辑感知视觉世界之间存在微妙的差异。虽然MLLM在一般的视觉问答方面越来越出色，但它们在需要精确物体定位、准确计数多个物体、在复杂布局中完美阅读文本或执行复杂视觉推理的任务上常常表现不佳。这就像知道图片中有一只猫和能够精确指出它的耳朵、计算它的胡须或理解它与其他物体的互动之间的区别。强化学习的崛起与Perception-R1的诞生强化学习（Reinforcement Learning, RL）引发了语言模型的范式转变。像RLHF （来自人 ...

多模态大语言模型（MLLM）

强化学习（Reinforcement Learning）

Artificial Intelligence

强化学习（Reinforcement Learning）

Artificial Intelligence

Perception - R1

YOLOv3

Faster - RCNN

AR智能革命！Satori系统读懂人类意图，科幻电影场景成现实

机器之心· 2025-04-28 01:26

在无数科幻电影中，增强现实（AR）通过在人们的眼前叠加动画、文字、图形等可视化信息，让人获得适时的、超越自身感知能力的信息。无论是手术医生带着 AR 眼镜进行操作，还是智能工厂流水线前的例行检查、或是面对书本时 AR 快速查找翻阅的超能力，是这一切只为一个最终目的——通过适时的信息辅助我们。直到今日，大部分 AR 辅助依然停留在需要人工远程接入辅助的层面，与我们期待的智能的、理解性的、可拓展的 AR 辅助相差甚远。这也导致 AR 在重要产业和生活应用中的普及受到限制。如何能让 AR 在生活中真正做到理解用户、理解环境、并适时的辅助依然面临巨大挑战。 Satori 系统自动识别用户称重 11 g 咖啡的展示这一切随着 Satori 系统的诞生即将成为过去。来自纽约大学数据与可视化实验室（NYU VIDA）联合 Adobe 的研究人员融合多模态大语言模型（MLLM）与认知理论 BDI（Belief-desire-intention theory）让 AI 首次真正意义的去理解使用者的行为、目标以及环境状态，最终达到根据不同场景自动适配指示内容，指示步骤，与判断辅助时机。让 AR 辅助接入智慧核心 ...

理想汽车MCAF重构辅助驾驶视觉认知新范式

理想TOP2· 2025-04-25 12:43

以下文章来源于AcademicDaily ，作者AcademicDaily AcademicDaily . AcademicDaily是一个跟踪、推荐和解读大模型等AI成果的技术交流平台，致力于传播和分享前沿技术。 MCAF在理想内部被称为自动驾驶第三只眼。兼容理想自研的Mind GPT-3o 与 BEV 大模型，无需重新训练。 MCAF是一个多模态粗到细注意力聚焦框架，核心解决的是长视频理解的关键瓶颈。当前视频理解领域对长视频（>5分钟）的处理存在显著缺陷，主流方法（如Video-MLLM）依赖全局压缩或均匀采样，导致细节丢失和冗余计算。MCAF直接针对这一问题，通过多模态分层注意力和时间扩展机制，在信息保留与计算效率之间找到了平衡点，这是其核心价值。在平均时长达60分钟的Video-MME数据集上，MCAF超越其他代理方法（如VideoTree、DrVideo）约3-5个百分点。不同于VideoTree等需要额外奖励模型评估置信度，MCAF利用单一LLM完成生成-评估-调整闭环。这不仅简化了架构（如代码实现仅需1个LLM接口），还避免了多模型协同的兼容性问题，更适合实际部署。不过在NEx ...

AI能看懂图像却算不好距离，上交时间-空间智能基准难倒9大顶尖多模态模型

量子位· 2025-04-15 03:54

STI-Bench团队投稿量子位 | 公众号 QbitAI 多模态大语言模型（MLLM）在具身智能和自动驾驶"端到端"方案中的应用日益增多，但它们真的准备好理解复杂的物理世界了吗？上海交通大学联合中国地质大学、南洋理工大学、智源研究院以及斯坦福大学的研究团队推出首个多模态大模型（MLLM）时空智能评测基准 STI-Bench（Spatial-Temporal Intelligence Benchmark），向当前最先进的多模态大语言模型发起了关于精确空间时间理解的严峻挑战。结果显示，即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等当前最强的多模态大模型，在需要定量分析真实世界空间关系和动态变化的任务上，表现并不尽人意。从语义理解到时空智能 MLLM在视觉语言理解上成就斐然，并被寄望于成为具身智能和自动驾驶的"端到端"解决方案。但这要求模型超越传统的语义理解，具备精准的时空智能。试想AI应用场景中的需求：自动驾驶：需知晓与前车的精确距离（米）、行人过马路的速度（米/秒）、安全过弯的车速限制等。机器人操作：需判断目标物体的尺寸位 ...

多模态大语言模型（MLLM）

时空智能

STI - Bench（Spatial - Temporal Intelligence Benchmark）

Gemini - 2.5 - Pro

GPT - 4o

Claude - 3.7 - Sonnet

多模态大语言模型（MLLM）

时空智能

STI - Bench（Spatial - Temporal Intelligence Benchmark）

Gemini - 2.5 - Pro

GPT - 4o

Claude - 3.7 - Sonnet

Previous Next