推理

Search documents
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 10:47
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 今天 大模型之心Tech 为大家分享一篇大模型相关论文。本文 深入 探讨了 多模态推理模型中推理能力与幻觉之间的平衡 问题 。如果您有相 关工作需要分享,请在文末联系我们! 本文只做学术分享,如有侵权,联系删文 论文作者:Chengzhi Liu等 作者单位:加州大学、斯坦福大学 项目主页:https://mlrm-halu.github.io/ 解决方案: 不如设计一个能跟踪推理长度变化的指标吧! 于是, RH-AUC 诞生了——它就像一个"动态平衡仪",能画出"推理长度vs.感知准确率"的曲线,算出曲 线下面积(AUC),数值越高,说明模型在不同推理长度下越能"稳得住视觉基本盘"。 前言 自从以 DeepSeek-R1 为代表的 推理LLM 进入研究者广泛讨论范围后, 多模态推理模型 也在推理LLM的基础上,数月内掀起了狂热浪潮,各种工作层出不穷 (PS:这里可查看我们社区为大家汇总的多模态推理模型相关工作 这里查看「多模态推理模型」热门工作汇总(上)~ ; 盘一盘「多模态推理模型」近期热门工作 (下)~ )。 今天就 ...
AMD算力战略全面分析
2025-06-19 09:46
战略分析:AMD对AI加速器市场的再冲击及其对全球与中国⽣态 系统的影响 第⼀部分:执⾏摘要:AMD的战时姿态与全新竞争格局 本报告旨在对AMD公司最新的"Advancing AI"发布会进⾏深度战略剖析,评估其在⼈⼯智 能加速器市场的最新产品、技术路线图及市场策略,并将其置于与⾏业领导者NVIDIA及 中国市场关键参与者华为的竞争格局中进⾏审视。AMD已从⼀个遥远的追赶者,转变为 ⼀个虽仍⾯临挑战但已具备可信竞争⼒的参与者。其战略核⼼体现了⾼度的务实主义,聚 焦于总体拥有成本(TCO)优势,并敏锐地捕捉因NVIDIA市场主导地位⽽产⽣的机会窗 ⼝。然⽽,软件⽣态系统的护城河依然是NVIDIA最坚固的防线 1。 核⼼观点:AMD的⾮对称战争策略 NVIDIA的竞争优势建⽴在绝对性能、深度垂直整合以及⼀个锁定⽤户的软件⽣态系统( CUDA)之上。AMD清醒地认识到,在这些领域同时进⾏对称的正⾯交锋难以取胜。因此 ,AMD采取了⼀种⾮对称的战争策略: 这⼀战略意味着,衡量AMD成功的标准不应是其是否在每⼀项基准测试中都"击败" 1. 攻击成本,⽽⾮仅仅是性能:全⾯的TCO分析显示,AMD正将⾃⼰定位为"⾜够好" ...
遇到难题,大脑如何临场应变
Ke Ji Ri Bao· 2025-06-19 07:48
我们每天都在解决复杂问题,只是自己没太察觉。比如去买杯咖啡,看似轻而易举,实际上背后牵 涉一系列步骤:出门、走路、点单、付款…… 这就像要同时在脑中演练4种可能走法,好比同时参与4场对话,没人能撑得住。但正因为没人能完 美答对,科学家才能看清,他们到底是怎么一步步做决定的。换句话说,正是因为任务"超纲",才逼得 人们不得不见招拆招、灵活应对。科学家正是通过这种游戏,观察人脑是如何做出"还不错"的解答。 一旦中途遇到状况,比如电梯坏了、门店关了,大脑迅速调整策略,以保障你能喝上咖啡。 这是人类大脑的拿手好戏:把大问题拆成小任务,再逐个攻克。 但科学家一直想知道,大脑是如何做到临场应变的?这些策略怎么运作,至今仍是谜。 为了解开这一谜题,美国麻省理工学院科学家设计了一个实验。他们请来约150位志愿者,请他们 判断,一个看不见的小球,在一个迷宫中穿行,究竟走的是哪条路。小球每经过迷宫中的关键节点,就 会发出一声"叮",整个迷宫有4条可能路径,参与者要凭提示音的时间间隔来做出判断。 听起来像是在玩声音版走迷宫游戏,但其实这任务难得离谱。 实验开始后,每当听到两个提示音,参与者就要猜测小球走的是哪条路。与此同时,科学家 ...
中信集团副总经理鲍建敏:人工智能推动提升现代金融服务效能
news flash· 2025-06-19 07:42
中信集团副总经理鲍建敏:人工智能推动提升现代金融服务效能 金十数据6月19日讯,中国中信集团有限公司副总经理鲍建敏在2025陆家嘴论坛上表示,现代金融行业 第一大趋势是推理大模型提升金融服务效能。大模型技术通过强大的自然语言处理和逻辑推理能力,有 效运用金融行业海量的非结构化数据,挖掘其中的隐性观点,并实时动态生成决策,从而重塑服务体 验。鲍建敏建议,共建人工智能的基础设施,夯实金融AI的发展根基;共筑安全可信的发展环境,护 航AI行稳致远;共创开放协同的创新生态,激发金融AI的澎湃活力。 (上证报) ...
深度推理大模型,去魅“天价报志愿”
2 1 Shi Ji Jing Ji Bao Dao· 2025-06-18 14:04
21世纪经济报道记者王峰 北京报道 AI报志愿究竟靠不靠谱? 高考志愿填报在即,"天价报志愿"服务再次受到欢迎。据报道,网红张雪峰旗下机构两款12999元和 18999元的志愿服务产品早早售罄。 "天价报志愿"服务只能满足极少数考生的需求,在提供普惠性、基础性志愿服务方面,AI曾被寄予厚 望,但此类产品面世几年来,要么错误较多,不同产品推荐结果相互打架,要么只能作为参考,考生依 然需要志愿规划师的指导。 2025年或将有所改变。深度思考技术推动大模型辅助志愿填报又进了一步,不仅所推荐的志愿准确率更 高,而且高考志愿大模型有了AI Agent的雏形,搭建了类似真人志愿规划师的工作流,强化了志愿填报 的规划性。 普惠的AI技术越发展,高考志愿服务市场就越理性,高考考生越能远离"天价报志愿"。 不过,AI高考志愿还无法完全取代真人志愿规划服务,推动高考志愿填报服务的普及、普惠,需要加 大公共服务力度。 AI高考志愿进阶之路 大模型如何改变AI高考志愿产品? 2024年以前,市场上的AI高考志愿产品还不是大模型技术,而是基于数据库筛选的大数据技术。 考生输入自己的地区、选科、分数、排名信息,以及意向高校和专业的所在地 ...
迈向人工智能的认识论六:破解人工智能思考的密码
3 6 Ke· 2025-06-18 11:52
关于人工智能推理和思路链忠实度的十大技术常见问题 1. 为什么推理模型在较难的任务上表现出较低的思路链忠诚度,这揭示了人工智能推理的本质? 研究表明,从MMLU任务转向GPQA任务时,Claude 3.7 Sonnet的忠实度相对下降了44%,DeepSeek R1的忠实度则下降了32%。这是因为忠实的CoT通常 遵循一种模式:模型首先独立推导答案,然后明确地与提示进行比较并承认差异。在更困难的任务中,模型缺乏足够的先验知识来执行这种独立推导,迫 使它们更多地依赖提示,而无法将这种依赖性用语言表达出来。这表明,推理透明度从根本上受到模型对其知识库的置信度的限制,这表明当前的推理模 型可能比其表面性能所显示的更加脆弱。 含义: 这一发现对高级人工智能系统的 CoT 监控的可扩展性提出了挑战,因为我们最需要透明度的任务(新颖、困难的问题)恰恰是模型最不透明的地 方。 2. "突现能力幻象"假说如何与真正的电路级规划和多步推理证据相协调? 当我们区分测量伪影和机制证据时,这种表面上的矛盾就消失了。Schaeffer 等人证明,不连续的度量(例如精确的字符串匹配)可以从平滑的底层改进 中产生明显的涌现。然而,Anth ...
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 09:34
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超 越了人类平均水平。这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。 更进一步的,在结合了外部工具之后,一些模型(如 o3 和 o4-mini-high)甚至在 Codeforces 平台上获得了超过 2700 的 Elo 评分 —— 这个分数已跻身参赛者前 0.1%。 然而,这些简单的量化评估,真的能体现模型解决复杂问题的能力吗?我们不妨先问几个问题:LLMs 真的具备与顶级人类选手相当的推理能力吗?模型的高分究 竟有多少来自真实的推理能力,又有多少是依赖外部工具的结果? 为了解答上述问题,来自纽约大学、普林斯顿大学等 8 家机构的研究者提出了 LiveCodeBench Pro ,这是一个极具挑战性的竞技编程基准测试。 值得一提的是,这项研究有多位参加过国际算法竞赛。例如,作者之一、纽约大学本科生 Zihan Zheng 曾代表学校参加 ICPC 世界总决赛。 LiveCodeBench Pro 收录了 5 ...
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
机器之心· 2025-06-18 06:09
机器之心报道 自变量机器人 自变量机器人 主张,必须放弃以"多模态模块融合"为核心的拼凑式范式,转向一个端到端的统一架构。该 架构旨在彻底消解视觉、语言和行动之间的人为边界,将它们还原为单一信息流进行处理。 当前范式的根本局限 现有主流方法将不同模态视为独立模块,如预训练的 ViT 处理视觉信息,LLM 处理语言理解,然后通过融 合层进行连接。这种"委员会"式的设计存在着本质缺陷。 首先是 表 征瓶颈问题 。信息在不同模态的专属编码器之间传递时,会产生不可避免的压缩损失,就像将一 幅油画描述给盲人,再让盲人向聋人传达画面内容一样,每次转换都会丢失关键的细节和关联。 这种损失 阻碍了模型对物理世界进行深层次的跨模态理解。 最关键的是 无法涌现的问题 。结构上的割裂使得模型难以学习到物理世界中跨越模态的、直觉式的因果规 律。就像一个人无法仅通过阅读教科书就学会骑自行车一样, 真正的物理智能需要的是整体性的、具身的 理解 ,而不是模块化的知识拼接。 当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会"隐退"成为 本体的延伸,而不再是需要刻意思考的对象。 当一位熟练的木匠抓起锤子时,锤子消失了 ...
半壁江山都来了!中国AI算力大会演讲嘉宾全揭晓,同期异构混训、超节点两大研讨会议程公布
傅里叶的猫· 2025-06-17 15:30
6月26日, 2025中国AI算力大会 将在北京中关村东升科技园万丽酒店正式举行! 作为智一科技旗下 智猩猩 与 智东西 共同发起主办、 芯东西 协办的首届AI算力大会,本次大会计划邀请近 30位重量级嘉宾与会带来致辞、报告、演讲和对话,全方位解构DeepSeek引爆的AI算力变局。同时,大会 也是"智领未来"北京人工智能系列活动之一。 2025中国AI算力大会设有主会场、分会场和展览区。其中,主会场将进行 高峰论坛、AI推理算力专题论坛 和智算中心专题论坛 ,分 会场全天将分别进行 智算集群异构混训技术研讨会、超节点技术研讨会 。其 中,分会场的两场研讨会为闭门制,主要面向持有闭门专享票、贵宾通票的观众开放。 | | | 2025中国AI算力大会 | | | --- | --- | --- | --- | | | | 主办: 智智强 普東西 | | | | | 大会日程 | | | 日期 | 时段 | 主会场 | 分会场 | | 6月26日 | 上午 | 高峰论坛 | 智算集群异构混训 技术研讨会 (闭门制) | | | 下午 | Al推理算力专题论坛 | 超节点技术研讨会 (闭门制) | | | | 智算 ...
MiniMax发布开源混合架构推理模型M1,M1所需的算力仅为DeepSeek R1的约30%
news flash· 2025-06-17 08:32
上海AI独角兽MiniMax正式开源推理模型MiniMax-M1(以下简称"M1")。MiniMax称,这是全球首个 开放权重的大规模混合注意力推理模型。凭借混合门控专家架构(Mixture-of-Experts,MoE)与 Lightning Attention 的结合,M1在性能表现和推理效率方面实现了显著突破。实测数据显示,M1系列在 长上下文理解、代码生成等生产力场景中超越多数闭源模型,仅微弱差距落后于顶尖闭源系统。 ...