Workflow
推理
icon
Search documents
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 04:57
清华大学团队 投稿 量子位 | 公众号 QbitAI 近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。 但你是否想过:它们真的"看懂"并"想通"了吗? 模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策? 为评估多模态大模型在视觉环境中,完成复杂任务推理的能力。清华大学团队受密室逃脱游戏启发,提出 EscapeCraft:一个3D密室逃脱环境 ,让大模型在3D密室中通过自由探索寻找道具,解锁出口。 该论文目前已入选ICCV 2025。 EscapeCraft 环境 沉浸式互动环境,灵感源自密室逃脱 研究团队打造了可自动生成、灵活配置的 3D 场景 EscapeCraft,模型在里面自由行动:找钥匙、开箱 子、解密码、逃出房间……其中每一步都需整合视觉、空间、逻辑等多模态信息。 任务可扩展,应用无限可能 EscapeCraft以逃出房间为最终目的,重点评测逃脱过程中的探索和决策行为、推理路径等。支持不同房 间风格、道具链长度与难度组合,还可扩展到问答、逻辑推理、叙述重建等任务。它是一个 高度灵活、 可持续迭代的通用评测平台 ,也可以为未来的智能体、多模态推理、强化 ...
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位· 2025-07-11 04:00
PAPO团队 投稿 量子位 | 公众号 QbitAI 让大模型在学习推理的同时学会感知。 伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的 专注于多模态推理 的强化学习算法 PAPO (Perception-Aware Policy Optimization)。 现有的强化学习算法(如GRPO)虽然在纯文本推理中表现优异,但当应用于多模态场景时,往往无法充分利用视觉信息进行推理。 近期有许多工作专注于提升强化学习再多模态场景中的应用,但大多集中在从数据(Data,Rollout)以及奖励机制(Reward)的设计,很 少设计对于核心GRPO算法的改动。 而PAPO通过创新的 隐式感知损失设计 ,仅依赖于内部监督信号,让多模态大模型在学习推理的同时学会感知,从根本上解决了现有方法中 感知与推理脱节的问题。 PAPO的模型和数据均已开源,详细可见文末链接。 错误分析:发现感知瓶颈 PAPO的第一个重要贡献是通过系统性的错误分析发现了多模态推理中的核心问题,也就是 视觉感知的准确性 问题。 PAPO团队对使用GRPO训练的Qwen2.5-VL-3B模型在四个基准数据集上的200个错误案例进行详细 ...
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 10:49
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一 名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一, Ruiyi Zhang 和 Sai Ashish Somayajula。 由于多模态输入(图像 + 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分 布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。 数据集质量失衡。现有开源多模态推理数据集存在大量低价值样本,如冗余模态与低难度问题。 若直接用于训练,噪声数据会稀释过程奖励模型对关键推理步骤(如跨模态逻辑衔接)的监督信 号。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖 励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题: 针对上述问题,我们通过双层优化框架,将数据域权重(Domain Weights)作为可学习参数,动态抑 制低质量数据域的影响,同时强化高信息密度数据域(如需要多步跨模态推理的 M3CoT 数据集)的贡 献, ...
AI芯片公司,估值60亿美元
半导体芯闻· 2025-07-10 10:33
Core Viewpoint - Groq, a semiconductor startup, is seeking to raise $300 million to $500 million, with a post-investment valuation of $6 billion, to fulfill a recent contract with Saudi Arabia that is expected to generate approximately $500 million in revenue this year [1][2][3]. Group 1: Funding and Valuation - Groq is in discussions with investors to raise between $300 million and $500 million, aiming for a valuation of $6 billion post-funding [1]. - In August of the previous year, Groq raised $640 million in a Series D funding round led by Cisco, Samsung Catalyst Fund, and BlackRock Private Equity Partners, achieving a valuation of $2.8 billion [4]. Group 2: Product and Market Position - Groq is known for producing AI inference chips designed to optimize speed and execute pre-trained model commands, specifically a chip called Language Processing Unit (LPU) [5]. - The company is expanding internationally by establishing its first data center in Helsinki, Finland, to meet the growing demand for AI services in Europe [5]. - Groq's LPU is intended for inference rather than training, which involves interpreting real-time data using pre-trained AI models [5]. Group 3: Competitive Landscape - While NVIDIA dominates the market for chips required to train large AI models, numerous startups, including SambaNova, Ampere, Cerebras, and Fractile, are competing in the AI inference space [5]. - The concept of "sovereign AI" is being promoted in Europe, emphasizing the need for data centers to be located closer to users to enhance service speed [6]. Group 4: Infrastructure and Partnerships - Groq's LPU will be installed in Equinix data centers, which connect various cloud service providers, facilitating easier access for businesses to Groq's inference capabilities [6]. - Groq currently operates data centers utilizing its technology in the United States, Canada, and Saudi Arabia [6].
博通管理层会议:AI推理需求激增,甚至超过当前产能,并未反映在当前预期内
Hua Er Jie Jian Wen· 2025-07-10 08:46
博通最新管理层会议释放出清晰信号——AI推理需求不仅正在迅速放量,而且仍处于上升通道的早期,未来对市场规模和产能 配置的重估,可能带来利润的系统性上修。 据追风交易台,在摩根大通日前组织的一场投资者会议中,博通管理层透露,公司在AI推理领域正迎来超预期的需求增长,甚 至"超过当前产能",而这一趋势尚未被纳入此前对市场规模的预测,或为未来盈利带来上修空间。与此同时,非AI业务也开始 复苏,VMware持续放量,公司整体"多线开火"。 博通CEO Hock Tan与CFO Kirsten Spears表示,过去一年AI需求主要来自训练负载,尤其是"前沿模型"的训练。但最近两个月, 公司在AI推理方面的订单大幅上升。管理层指出,这波推理需求来自客户希望更快地变现其AI投资,"推理的市场容量,可能被 严重低估"。 AI推理需求超预期,有望推高市场规模预测上限 博通管理层表示,定制AI XPU芯片业务依然强劲,增长跑道清晰可见。过去9-12个月中,AI需求主要集中在前沿模型等训练工 作负载上。但在过去2个月里,随着客户努力将投资货币化,公司经历了推理需求的显著激增。管理层认为当前推理需求已超过 产能。 这一强劲的AI推 ...
复杂系统自学习“逆最优”理论与方法专题论坛在京举行
Huan Qiu Wang Zi Xun· 2025-07-10 08:40
来源:光明网 中国科学院院士、中国自动化学会理事长、中国空间技术研究院研究员杨孟飞出席。中国自动化学会特 聘顾问、青岛科技大学副校长、上海交通大学教授李少远,华北电力大学教授肖峰,中国自动化学会副 监事长、安徽大学教授孙长银,中国自动化学会理事、武汉大学教授张俊作主旨报告。中国自动化学会 理事、中国科学院自动化研究所研究员魏庆来,英国格拉斯哥大学教授于慧,英国剑桥大学助理教授那 晓翔作专题报告。北京航空航天大学教授王卓主持报告环节。中国科协第十届青年人才托举工程入选 者、中国科学院自动化研究所副研究员王晨主持圆桌讨论环节。 7月5日,第二十七届中国科协年会复杂系统自学习"逆最优"理论与方法专题论坛在北京召开。本次专题 论坛由中国科协主办,中国自动化学会承办,与会专家围绕实际复杂系统最优运行建模等非共识议题, 共同探讨复杂非线性系统自学习"逆最优"发展路径。 张俊教授作题为"基于生成式人工智能和科学智能(AI4S)的复杂电力系统数智化关键技术与应用"的报 告 孙长银教授作题为"试错驱动具身智能学习与进化"的报告 魏庆来研究员作题为"自学习最优控制"的报告 杨孟飞理事长出席论坛 李少远教授作题为"基于'智能'增强 ...
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 12:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案。那么下一代大 模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬件适配、知识蒸馏与 量化加速、高效微调大模型等方向! 除此之外目前大火的CoT方案也是后期完成空间感知的重点,VLA+强化学习等高级推理范式也被行业重点关注。 这些问题是学术界和工业界亟需要解决的,相关的论文研究受到审稿人的青睐,国内外越来越多的团队正在从事相 关方向研究。我们了解到不少同学靠着自己的努力,发了篇和自动驾驶相关的大模型工作,申博去了TOP2!前面 收到很多同学的求助,希望能够辅助开展大模型相关的论文指导研究,解决无人带发论文,缺乏指导的痛点。 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人带、易踩坑、不知如 何写稿、投稿的难题。 ⼀、课程介绍⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成为 ...
智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一:同尺寸效果最好
IPO早知道· 2025-07-09 10:01
GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 学科解题:支持对数学、物理、生物、化学等学科问题的看图解题,通过推理给出详细的思考过程; 据 IPO 早 知 道 消 息 , GLM-4.1V-9B-Thinking 凭 借 9B 的 模 型 尺 寸 , 日 前 成 功 登 顶 HuggingFace Trending第一 。 | Hugging Face | Q Search models, datasets, users ... | | | | | --- | --- | --- | --- | --- | | Models 1,851,126 | Filter by name | Full-text search | Add filters | 1J Sort: Trending | | THUDM/GLM-4.1V-9B-Thinking | | | | | | 15. Image-Text-to-Text . . . : 10B = Updated about 15 ...
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 04:57
西风 发自 凹非寺 量子位 | 公众号 QbitAI "人类最后的考试"首次 突破30分 ,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。 直到最近, 最高分也不过26.9 ,由Kimi-Research和Gemini Deep Research并列取得。 现在,上海交大联合深势科技团队突然发布了一项新研究,在"人类最后的考试" (HLE,Humanity's Last Exam) 上一举拿下 32.1分 , 创下新纪录。 在这项研究中,团队推出 工具增强推理智能体X-Master 、 多智能体工作流系统X-Master s。 划重点:还直接把这套方案给 开源 了。 网友们纷纷感叹现在AI竞赛太激烈,一天一个样。 另外值得一提的是,这项研究 使用了DeepSeek-R1-0528作为驱动智能体的推理模型 ,由此也有网友表示: R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这 个难度很高的测试中就能拿到32%的成绩。 虽然大家可能会习惯性地称R1为"最佳基础模型",但我觉得这其实是给V4打下了基础。我敢肯定, ...
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 01:18
Polaris团队 投稿 量子位 | 公众号 QbitAI 4B模型的数学推理能力和顶尖商业大模型差在哪里? 香港大学NLP团队联合字节跳动Seed、复旦大学发布名为 Polaris 的强化学习训练配方: 通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2) 超越了一众商业大模型 ,如Seed-1.5- thinking、Claude-4-Opus和o3-mini-high(25/01/31)。 并且,Polaris-4B的轻量化允许在消费级显卡上部署。 详细的blog、训练数据、模型和代码都已 全部开源 ,链接可见文末。 围绕待训练模型进行参数配置 之前的RL训练配方,如DeepScaleR,已经展示了Scaling RL在较弱基模型上强大的效果。 但对于目前最前沿的开源模型(如Qwen3),Scaling RL是否也能复现如此显著的提升呢? Polaris的研究团队给出了明确回答:可以! 具体来说,Polaris通过仅仅700步的RL训练,成功地 让Qwen3-4B在数学推理任务上接近了其235B版本的表现 。 只要方法得当,RL还存在 ...