多模态

Search documents
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
机器之心· 2025-07-12 02:11
作者简介:由来自北 京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博 士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身 智能和多模态学习领域的研究,欢迎关注。 快执行与慢思考: 在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。近期,北京大学与香港 中文大学的研究团队联合发布了名为 Fast-in-Slow(FiS-VLA) 的全新双系统视觉 - 语言 - 动作模型。不同 之前的快慢系统 VLA 方法需要初始化 / 引入一个全新的快速执行模块,该方法通过将快速执行模块嵌入预 训练视觉 - 语言模型(VLM)中,实现快慢系统一体化的设计。同时,针对双系统设计了异构模态输入与 异步运行频率的策略,使得 FiS-VLA 既能实现快速动作生成,也具备慢思考能力。该方法在多个仿真与真 机平台上取得了优异表现。最令人瞩目的是,FiS-VLA-7B 可以实现高达 117.7Hz 的控制频率,大幅领先于 现有主流方案,展示了其广阔的实际应用潜力。 论文链接: https://arxiv.org/pdf/2506.01953 项目 ...
百度2026届校招重注AI,超4000份Offer,应届生直接触核心研发!
Sou Hu Cai Jing· 2025-07-12 00:03
在AI领域持续发力的百度,近日正式拉开了2026届校园招聘的大幕,此番招聘规模空前,共提供了超过4000个工作岗位,其中AI相关职位的比例高达九 成,这一数字无疑是国内互联网巨头在校招中对AI人才最为重视的一次体现,也标志着AI技术正加速从理论探索走向商业应用的广阔舞台。 本次校招活动覆盖了包括北京、上海、深圳、成都等在内的七大城市,百度不仅扩大了招聘范围,还特别增设了90个AI领域的全新职位,专注于多模态、 跨模态以及大模型架构等前沿技术的探索。对于即将走出校门的应届生而言,他们将有机会直接参与到百度文心大模型、飞桨平台、数字人项目等核心产品 的研发中,这无疑为他们提供了一个极高的职业起点。 从国内AI产业的发展现状来看,互联网巨头们在AI领域的竞争已经日益激烈,形成了多维度、多层次的战略布局。百度凭借其全栈AI能力,在智能云市场 表现出色,2025年上半年,百度智能云在大模型相关项目的招投标中,以48个中标项目和5.1亿元的金额位居行业前列。在金融、能源、政务等多个领域, 百度都取得了显著的成果,65%的央企选择与百度进行深度合作。 百度还构建了包含三万台昆仑芯集群的算力底座,为招商银行等企业提供了稳定、 ...
Grok-4,马斯克口中地表最强AI
Sou Hu Cai Jing· 2025-07-11 12:58
撰文 / 涂彦平 编辑 / 黄大路 2025年7月10日,马斯克旗下xAI公司发布了AI模型Grok-4。这个被他称为"世界上最聪明的AI"在各个AI基准测试中开 启了屠榜模式。 先说说xAI,这家公司2023年7月12日成立,到今天将将两年。 公司创立之初,马斯克曾表示,构建xAI的目标是要专注于回答更深层次的科学问题,期望未来可以用AI去帮助人们 解决复杂的科学和数学问题并且理解宇宙。 2025年1月16日,xAI上线推出网页版Grok AI聊天机器人。2月17日,xAI发布Grok-3聊天机器人。然后是刚刚,发布了 新一代Grok-4大模型。 目前,Grok-4已经开启订阅。Grok-4系列包含Grok-4和Grok-4 Heavy两个版本,前者月费30美元,后者月费300美元。 这是目前最昂贵的AI订阅计划。Grok-3则维持免费开放。 设计 / 柴文静 失之东隅,收之桑榆。这句话放在马斯克身上再贴切不过了。 灰溜溜从白宫离开,与特朗普撕破脸,被大而美法案背刺,气得建立美国党,想玩政治反被政治玩。换个人都得自闭 了,但老马转头就在AI赛道上搞了把大的。 这个被马斯克自己视作地表最强的AI究竟是什么成色 ...
驾驭工业场景挑战!灵心巧手即将推出全新“工业大师”灵巧手
机器人大讲堂· 2025-07-11 10:35
随着人形机器人在 2025年迎来量产元年,灵巧手落地应用的新元年也即将到来。在不同场景的探索推进下 ,工业灵巧手已 率先 从 设计初探迈 入 落地 战场 —— 工业生产半开放 场景 属性下的 标准化 、 高精度刚 需,正成为 灵巧手落地 的理想试验场。 针对灵巧手市场低自由度深度内卷的固有格局,灵心巧手推出的 Linker Hand系列灵巧手在国内率先开辟了 高自由度灵巧手市场,推动 灵巧手 产品和技术进入 前所未有的加速发展 时期。主售产品 Linker Hand L10、L20以及L30均实现20个以上的自由度,并展现出优良的精度和性能表现,高自由度赋予的高灵活性可 支持灵巧手完成更加复杂的人手工作,拥有更高的泛化性,适配不同的工业生产任务。目前Linker Hand系列 产品已收获广泛的市场认可,实现月订单过千。 工业 场景对灵巧手有着高自由度、高灵活性、高负载能力等直接需求,灵心巧手驱动技术路线延伸,专门针 对工业场景进行高性能灵巧手研发。面向不同需求层级,灵心巧手即将推出两款高自由度 "工业大师"灵巧手 ——Linker Hand L6与L20工业版。其中,Linker Hand L6工业版具有6个 ...
报名开启|7月27日,世界人工智能大会腾讯论坛邀您共探AI新纪元
腾讯研究院· 2025-07-11 07:20
2025年,人工智能将如何进一步突破认知的极限?又将怎样更深刻地助力千行百业,并塑造我们共同的 科技未来? 7月27日,由世界人工智能大会组委会指导, 腾讯华东总部、腾讯优图实验室主办,腾讯研究院、腾讯 科技、腾讯云智能、腾讯Robotics X实验室、腾讯SSV为村发展实验室、腾讯游戏VISVISE、QQ浏览 器、ima及搜狗输入法 等共同支持的 2025世界人工智能大会腾讯论坛 将在 上海 举办。 当科技的浪潮奔涌向前,人工智能正以超乎想象的速度重塑世界。从早期的理论设想,到如今成为变革 世界的核心力量,AI 不再是高悬于科幻云端的概念,已然化作 生活中无处不在的贴心助手 ,驱动着产 业升级、革新用户体验、重构人机协同,在诸多领域展现出令人瞩目的突破性潜能。 2024 年,我们共同经历了生成式AI的深化融合与爆发式应用。以多模态大模型和具身智能为代表的科 技新范式不断涌现,不仅拓宽了AI能力的边界,更深层次地加速了智能与人类社会的共生进程,为人工 智能的发展书写激动人心的新篇章。 今年, 我们将以"智能涌现"为主题, 聚焦全球AI技术与产业深度融合趋势,围绕"大模型垂直落地、场 景创新突破、生态共建协同" ...
科创AIETF(588790)上涨1.78%,近一年日均成交额跑赢同类产品,机构:多模态大模型和应用发展的奇点将至
Xin Lang Cai Jing· 2025-07-11 05:43
消息面上,2025年7月8日至11日,人工智能向善全球峰会在瑞士日内瓦召开。中国移动展示了九天大模型平台等AI解决方案。该平台可实现云端、边缘 侧、端侧全场景灵活部署,已在客服、航空等多个领域落地。同时,还展示了"AI+高标准农田""AI+超脑平台"等应用,助力农业生产与城市治理。 华泰证券认为,多模态大模型和应用发展的奇点将至。判断依据包括:1)技术进步方面:原生多模态模型架构得到业界认可,OpenAI和Google的原生多模 态模型已经在性能、延时、部署上展现出优势。2)商业化进展方面:全球维度看,除了最头部的OpenAI和Anthropic依靠模型"智能"实现商业化,相当一部 分AI应用公司的商业化产品依赖多模态能力。国内维度看,国内公司在视频生成赛道已经实现了较成熟的全球化和商业化之路。与市场不同的观点在于, 1)更早认识到原生多模态架构将成为主流;2)AI商业化不能仅聚焦在二级公司,更要关注全球维度一级公司的进展。 规模方面,科创AIETF最新规模达44.48亿元,创成立以来新高,位居可比基金1/7。 份额方面,科创AIETF最新份额达79.33亿份,创成立以来新高,位居可比基金1/7。 资金流入方 ...
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
AI前线· 2025-07-11 05:20
"情智兼备"是新一代人工智能的重要发展方向,是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态 交互信息,深度挖掘人类内在情感状态,从而实现更具真实感与自然性的人机对话。然而,面对多模态情感数据语义的高度复杂性,如何有效建模跨模 态关联关系仍是领域内亟待突破的核心挑战。 针对这一技术瓶颈,快手可灵团队与南开大学在「多模态情感理解」领域完成了开创性研究,成功定位了现有多模态大模型在情感线索捕捉中的关键短 板。研究团队从多模态注意力机制的维度切入,提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型'摩达 (MODA)'。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的 21 个基准测试中均实现了显著性能提升。此 外,基于新的注意力机制,'摩达'在角色剖析与规划演绎等人机交互场景中表现出色。目前,该研究成果已被 ICML 2025 收录,并获选焦点论文 (Spotlight,Top 2.6%)。 论文标题:MODA: MOdular Duplex Attention for Multimodal Percep ...
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 04:00
Core Viewpoint - PresentAgent is a multimodal AI agent designed to automatically convert structured or unstructured documents into video presentations with synchronized voiceovers and slides, aiming to replicate human-like information delivery [1][3][22]. Group 1: Functionality and Process - PresentAgent generates highly synchronized visual content and voice explanations, effectively simulating human-style presentations for various document types such as business reports, technical manuals, policy briefs, or academic papers [3][21]. - The system employs a modular generation framework that includes semantic chunking of input documents, layout-guided slide generation, rewriting key information into spoken text, and synchronizing voice with slides to produce coherent video presentations [11][20]. - The process involves several steps: document processing, structured slide generation, synchronized subtitle creation, and voice synthesis, ultimately outputting a presentation video that combines slides and voice [13][14]. Group 2: Evaluation and Performance - The team conducted evaluations using a test set of 30 pairs of human-made "document-presentation videos" across various fields, employing a dual-path evaluation strategy that assesses content understanding and quality through visual-language models [21][22]. - PresentAgent demonstrated performance close to human levels across all evaluation metrics, including content fidelity, visual clarity, and audience comprehension, showcasing its potential in transforming static text into dynamic and accessible presentation formats [21][22]. - The results indicate that combining language models, visual layout generation, and multimodal synthesis can create an explainable and scalable automated presentation generation system [23].
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位· 2025-07-11 04:00
PAPO团队 投稿 量子位 | 公众号 QbitAI 让大模型在学习推理的同时学会感知。 伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的 专注于多模态推理 的强化学习算法 PAPO (Perception-Aware Policy Optimization)。 现有的强化学习算法(如GRPO)虽然在纯文本推理中表现优异,但当应用于多模态场景时,往往无法充分利用视觉信息进行推理。 近期有许多工作专注于提升强化学习再多模态场景中的应用,但大多集中在从数据(Data,Rollout)以及奖励机制(Reward)的设计,很 少设计对于核心GRPO算法的改动。 而PAPO通过创新的 隐式感知损失设计 ,仅依赖于内部监督信号,让多模态大模型在学习推理的同时学会感知,从根本上解决了现有方法中 感知与推理脱节的问题。 PAPO的模型和数据均已开源,详细可见文末链接。 错误分析:发现感知瓶颈 PAPO的第一个重要贡献是通过系统性的错误分析发现了多模态推理中的核心问题,也就是 视觉感知的准确性 问题。 PAPO团队对使用GRPO训练的Qwen2.5-VL-3B模型在四个基准数据集上的200个错误案例进行详细 ...
新京报联合Xsignal发布首期“全媒介之星”中国AI应用榜
Bei Ke Cai Jing· 2025-07-11 02:45
本榜单根据不同领域AI应用的全媒介声量(核心指标为AI应用用户发文总量,实时覆盖新闻、社交媒体、短视频、垂直社区、金融财经等800+内容平台数 据),梳理出了2025年1月-6月排名前20的国内AI应用,并对照应用的MAU(月活跃用户)进行了数据分析。 7月10日,2025贝壳财经年会上,新京报AI研究院和数据公司Xsignal联合发布了2025年上半年"全媒介之星"中国TOP 20 AI应用榜单。 | 1,071 24 | 33 23 | 373 23 | 870 | | --- | --- | --- | --- | | (MAU I ) ( ( ( ( ( ( ( ) | (MAU 万) ( ( 总声量 万) | (MAUI 万) (总声量 万) | (MAUI 7) | | 24 (总声量1万) | | | | 从具体APP来看,市场集中度的攀升成为上半年最显著的特征。豆包、DeepSeek、夸克组成的 "超级三巨头",以超2000万的声量(其中豆包接近3000万) 和破亿的活跃用户数(豆包2.05亿、DeepSeek2.2亿),牢牢占据核心流量入口与用户心智。数据显示,三者合计占据市场超 60% 的 ...