推理

Search documents
长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」
机器之心· 2025-07-09 00:50
机器之心报道 编辑:张倩 思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。 找出这些步骤,我们就可以更深入地理解 LLM 的内部推理机制,从而提高模型的可解释性、可调试性和安全性。 但是,这些步骤没有那么好找,因为每个生成的 token 都依赖于之前的所有 token,其计算难以分解。 在最近的一项研究中,来自杜克大学和 Aiphabet 的研究者提出, 在句子层面分析推理痕迹或许是一种有前途的方法 。 作者指出,与 token 相比,句子的连贯性更强,并且往往与 LLM 提取的推理步骤相一致;与段落相比,句子不太可能混淆推理步骤,并且可以作为连接不同步骤 的有效对象。 作者提出了三种互补的方法来分析 LLM 的推理过程,这些方法旨在识别推理过程中的关键步骤,即所谓的「思维锚(thought anchor)」,这些步骤对后续推理过 程具有重大影响。 论文标题:Thought Anchors: Which LLM Reasoning Steps Matter? 论文链接:https://arxiv.org/pdf/2506.19143 第一种是 黑盒方法 。它通过反事实分析衡量句 ...
KAG-Thinker:「结构化」思考新范式,支持逻辑严谨的大模型复杂推理
机器之心· 2025-07-08 06:54
近日, 蚂蚁集团知识引擎团队协同浙江大学、同济大学正式发布了其在结构化推理领域的最新成果 —— KAG-Thinker 模型,该模型是 KAG 框架的重 要迭代升级,聚焦于为通用或专业领域复杂推理任务构建稳定、可解释的思考范式。 2025 年以来,OpenAI 推出的 Deep Research 展示了大模型在复杂推理任务中多轮检索、规划推理的强大能力。随后,产学界涌现了较多以模型为中心 (Model-Centric) 的方法,比如 Search-R1、ReSearch 等。它们的核心思路是,通过强化学习让模型自己 "学会" 如何检索和利用外部知识,从而让小模 型也能像专家一样 "思考"。然而,这些基于自然语言的推理方法就像让模型 "自由发挥",推理不严谨、过程不稳定等问题依然突出。而人类专家解决 复杂问题时,往往采用结构化的思考方法,把原始问题拆解成多个可独立验证的小问题,并依次求解。 受此启发,研究团队提出了 KAG-Thinker,为 模型的思考过程建立一套清晰、分层的 "脚手架",从而提升复杂任务中推理过程的逻辑性与稳定性 。 该模型延续了 KAG 框架 Logical Form 自然语言与逻辑函数双 ...
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-07 23:31
大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM 方案。那么下一代大模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬 件适配、知识蒸馏与量化加速、高效微调大模型等方向! 除此之外目前大火的CoT方案也是后期完成空间感知的重点,VLA+强化学习等高级推理范式 也被行业重点关注。 这些问题是学术界和工业界亟需要解决的,相关的论文研究受到审稿人的青睐,国内外越来越 多的团队正在从事相关方向研究。前面收到很多同学的求助,希望能够辅助开展大模型相关的 论文指导研究,解决无人带发论文,缺乏指导的痛点。 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人 带、易踩坑、不知如何写稿、投稿的难题。 ⼀、课程介绍⭐ 解决只了解大模型相关零散知识,没有清晰的体系的问题,帮助系统掌握指定方向的重点理论知 识,同时做适当拓展,让学员对指定方向内容形成更清晰的体系; 解决没有方向,动手能力差,无法复现论文,帮助同学将模型理论与代码实践相结合,协助同学 开发设计新模型铺垫基础;能让学员将baseline深化拓 ...
万通智控20250707
2025-07-07 16:32
万通智控 20250707 摘要 万通智控新产品如传感器及车联网产品(MLP)增长显著,与浙江大学 合作的机器人项目已进入科研报告后期,预计短期内完成,并与 AI 推理 芯片公司洽谈合作,潜在应用于机器大脑和智能驾驶领域。 商用车 NLP 产品是万通智控独有技术,无需剥开轮胎安装,毛利率高达 60%-70%。2025 年上半年订单量约 5 万套,总金额数亿元,主要受益 于其便捷安装和成本优势,受欧美大型车队青睐。 国内商用车 TPMS 推广滞后于乘用车,但顺丰、京东等自营物流公司已 开始逐步安装。万通智控正与挂车整车厂合作,推广 TPMS 系统和车辆 联网产品作为标配。 中美贸易战对万通智控出口影响有限,得益于其在美国、捷克、德国和 泰国等地的本土化生产基地,可快速实现本地化生产,并主要由客户承 担关税成本。 万通智控预计未来两三年利润年增长目标为 20%-30%。2025 年第一 季度 TPMS 相关产品整体增长 41%,高于去年全年 36%的增速,增长 趋势显著。 NLP(New Low Power)产品具有独特技术,目前在中国仅万通智控能够生 产。其主要特点是安装在商用车轮胎外部,无需剥开轮胎,这在欧美 ...
复盘国内外AI,兼论恒生科技
小熊跑的快· 2025-07-07 09:45
4.7 日后,中美两国股市都迎来了一轮上涨: 纳斯达克累计涨幅 32.9% 。恒生科技指数 ETF ( 513180 )累计涨幅 11.57% 。上证涨了 12.16% 。 A 股整体的上涨幅度没有美股大,从结构上看,也有 很大的差别。 逻辑是对的: 训练芯片以 H100 和 H200 为首,从 2.28 日以后其主力云上价格是往下得: 分析里面的原因:还是基础大模型的迭代变慢所致,在 transformer 架构下的基 础模型迭代明显变慢了,去年 11 月我们还能说是因为算力不够的原因,大 模型迭代受阻。但是从今年 3 月 B200 开始交付, 5 月以后情景看,基础模型的升级就是变慢了。而且从我们跟踪的行业趋势看,预训练美国大厂们还没 放弃,但是基本都把大模型迭代的重点全力投向了 RL 强化学习路径,马上要出来的 GPT5 也是这方面的集大成者。 RL 后训练强化学习阶段,老黄也认为遵 循 scaling law 法则,但比起预训练的暴力增参的大幅需求, RL 的需求显然要小一些。所以从 2 月全球一窝蜂的 转向强化学习这个路径后, H100 和 H200 的租赁价格是明确下降的,这里面也有地区影响,比如 ...
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
量子位· 2025-07-07 07:43
WebSailor团队 投稿 量子位 | 公众号 QbitAI 在互联网信息检索任务中,即使是很强的LLM,有时也会陷入"信息迷雾"之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索 就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。 举个例子,我们平常问一个直白的问题(比如"某城市的人口是多少"),搜索引擎一查即可。 但如果问题被设计得非常复杂,比如"这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于 哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?",人类和AI都很难直接找到入口。 这类问题需要阅读许多网页、抽丝剥茧地拼凑线索,逐步把迷雾拨开,才能找到答案。这超出了人类有限记忆和注意力的负荷,也远远超出了 普通开源模型的能力范围。 有没有办法让开源的大模型也掌握这种拨云见日的本领? 阿里巴巴通义实验室最新提出的方案WebSailor通过一整套创新的post-training方法,大幅提升了开源模型在复杂网页推理任务上的表现。 此前开源的Agent在类似BrowseComp这样复杂的、超越人类能力边界的基准上几乎为零,WebSailor成为首个 ...
AI芯片新贵Groq在欧洲开设首个数据中心以扩大业务
智通财经网· 2025-07-07 07:03
Group 1 - Groq has established its first data center in Helsinki, Finland, to accelerate its international expansion, supported by investments from Samsung and Cisco [1] - The data center aims to leverage the growing demand for AI services in Europe, particularly in the Nordic region, which offers easy access to renewable energy and cooler climates [1] - Groq's valuation stands at $2.8 billion, and it has designed a chip called the Language Processing Unit (LPU) specifically for inference rather than training [1] Group 2 - The concept of "sovereign AI" is being promoted by European politicians, emphasizing the need for data centers to be located within the region to enhance service speed [2] - Equinix, a global data center builder, connects various cloud service providers, allowing businesses to easily access multiple vendors [2] - Groq's LPU will be installed in Equinix's data centers, enabling enterprises to access Groq's inference capabilities through Equinix [2]
从多模态融合到行业深扎,国内 AI 大模型三大发展方向解析
Sou Hu Cai Jing· 2025-07-07 03:36
国内有众多 AI 大模型研发机构,如百度、阿里、字节跳动、科大讯飞等,从这些机构的实践来看,大模型主要有以下发展方向: ·行业深度赋能:科大讯飞计划将星火大模型从 "通用" 走向 "行业",深度赋能汽车、教育、医疗、智慧城市、赛事运营等产业。百度、阿里等公司的大模型 也在金融、工业、政府、科研、电商等领域积极探索应用,未来大模型会针对不同行业的特点和需求,进行定制化开发和优化,为各行业提供更专业、更精 准的服务,推动行业智能化升级。 ·智能应用创新:随着大模型技术的发展,将催生更多新型智能应用。字节跳动提出 "互联网正从 APP 时代进入 Agents 时代",其火山引擎发布的方舟平台 等系列工具,构建了服务 Agent 开发的完整体系,展现出 AI 重构软件开发范式的潜力,也催生了不少如他她它、推氪AI等的应用层面的产品。未来,大模 型将与更多新兴技术结合,创造出如智能助手、智能创作工具等更多创新应用,改变人们的生活和工作方式。 生态建设方向 ·开源共享:开源成为大模型发展的重要趋势。2025 年以来,字节豆包、百度文心、阿里通义千问等均推出开源模型。商汤科技发布了 LazyLLM 开源框架 等产品,Min ...
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 05:23
随着多模态大语言模型( MLLMs)的快速发展, 其在视频推理等前沿任务中快速进化,不断突破性能天花 板。而 强化学习( RL)作为推动这场技术革命的关键引擎,为大语言模型注入了强大的推理能力。 DeepSeek-R1凭借纯RL优化,让模型推理能力实现质的飞跃;VideoR1引入T-GRPO,赋予模型拆解视频 时空逻辑的 "透视眼";VideoChat-R1借助基于 GRPO 的多任务联合微调,让模型在视频理解与多步推理 上表现得更加 "聪明伶俐",相关成果不断涌现…… 尽管 基 RL驱动的优化在指标提升上成绩亮眼, 但 在面对复杂多模态任务时,依然存在两大拦路虎: 一方 面,思维链推理应用到多模态时 "水土不服",不仅产出的推理过程冗长没重点,训练目标还常忽略关键时空 线索,拖慢学习效率;另一方面,现有依赖单选题问答的稀疏二元奖励信号太" 简单 粗暴 ",只认可全对答 案,埋没部分正确内容。不过幸运的是,视频定位研究已证实,软奖励信号能稳定学习过程、提升精度 。 ▍提出TW-GRPO框架:革新加权机制与奖励设计 面对多模态大语言模型在视频推理任务中存在的推理质量和奖励粒度等挑战,来自 中山大学、兰州大学、合 ...
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 05:53
本文的第一作者吴怡琳现为卡内基梅隆大学机器人学院二年级博士生,导师为 Prof. Andrea Bajcsy。她的研究聚焦于开放世界场景下的物体操控与机器人 终身学习。吴怡琳本科毕业于上海交通大学,并于斯坦福大学取得计算机科学硕士学位。她曾与 Prof. Pieter Abbeel、Prof. Lerrel Pinto、Prof. Dorsa Sadigh 及 Prof. David Held 等多位专家合作,开展可变形物体操控、双臂协作操作及辅助喂食机器人等方向的研究,获得过 ICRA 最佳论文,CoRL 的 oral 论文录用。目前,她正在 NVIDIA 西雅图机器人实验室参与暑期研究,继续推进具身智能模型在复杂场景下的可扩展性与部署能力。 第二作者田然是 UC Berkeley 即将毕业的博士生同时在 NVIDIA 担任研究科学家,研究方向致力于推动机器人基础模型在真实世界中实现大规模、安全、 可信的落地应用。他的研究系统性地探索了机器人基础模型在预训练、后训练到实际部署各阶段中所面临的安全与偏好对齐挑战。他的工作获得了多个最佳 论文和国际奖项的肯定,包括:世界人工智能大会 「 云帆奖 」 、高通创新奖 ...