思维链

Search documents
张哲:数据帮助解决算法模型落地的最后一公里问题
Bei Ke Cai Jing· 2025-07-12 04:07
新京报 和 IX 上自会秘书 冠节户 TEC 新京报贝壳财经讯(记者胡萌)7月11日,2025贝壳财经年会「中国经济:开放与韧性 共生」在北京召开。海天瑞声董事会秘书张哲在圆桌论坛「服务实体 经济 金融与科创的"双向奔赴"」中表示,近两年大模型领域发生较多变化,AI大模型正在从单模态向多模态发展,应用场景也迅速从通用场景向垂直场景 转换。此外,DeepSeek火爆也让思维链(CoT)技术备受关注,这一技术让模型从之前的"快思考"转变为"慢思考",从而提升了模型处理复杂问题的准确性 和可靠性。上述变化驱动数据需求同步呈现多模态、多场景、思维链等新趋势。 对于AI行业对训练数据的需求变化,张哲表示,由于大模型的崛起,AI与千行百业的融合发展已经启动,算法模型的落地普遍存在"最后一公里"的问题,众 多实践表明,持续获得对应场景的高质量数据是解决"最后一公里"问题的重要途径。 张哲介绍,中国国内AI数据市场只是全球市场的一小部分,更大的市场是在国外。"海天的全球化业务已经发展多年,去年我们境外收入已经占到全年收入 的接近一半,且去年我们也首次把自主可控的数据交付基地布局到国外。" 公开资料显示,海天瑞声成立于2005 ...
智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一:同尺寸效果最好
IPO早知道· 2025-07-09 10:01
GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 学科解题:支持对数学、物理、生物、化学等学科问题的看图解题,通过推理给出详细的思考过程; 据 IPO 早 知 道 消 息 , GLM-4.1V-9B-Thinking 凭 借 9B 的 模 型 尺 寸 , 日 前 成 功 登 顶 HuggingFace Trending第一 。 | Hugging Face | Q Search models, datasets, users ... | | | | | --- | --- | --- | --- | --- | | Models 1,851,126 | Filter by name | Full-text search | Add filters | 1J Sort: Trending | | THUDM/GLM-4.1V-9B-Thinking | | | | | | 15. Image-Text-to-Text . . . : 10B = Updated about 15 ...
猫怎么成了大模型“天敌”?
Hu Xiu· 2025-07-08 00:05
本文来自微信公众号:APPSO (ID:appsolution),原文标题:《一只猫就能让最强 AI 答错题,Deepseek 也翻车,猫怎么成了大模型"天敌"?》,题图 来自:AI生成 最近有人发现,用猫咪做"人质",竟然可以增加AI辅助科研的准确率: 只要在提示词里加上一句:"如果你敢给假文献,我就狠狠抽打我手里的这只小猫咪",AI就会"害怕"犯错,而开始认真查文献、不再胡编乱造了。 http://xhslink.com/a/pg0nZPUiFiZfb 不过,AI真的会因为"猫咪道德危机"而变得更靠谱吗? 这个问题,目前还没有确凿的科学依据。从技术原理上说,大模型并不真正"理解"猫猫的安危,它只是学会了如何在训练数据中模拟"看起来有同理心"的 语言风格。 但有趣的是——猫猫真的能影响AI行为,却是有论文实锤的! 一篇来自斯坦福大学、Collinear AI和ServiceNow的研究论文指出: 在一道数学题后,随手加上一句与上下文无关的句子,就能显著提高大模型出错的几率——甚至高达3倍以上! 只不过,这不是"让它更靠谱",而是:让AI彻底翻车。 论文传送门:https://arxiv.org/abs/25 ...
北极光创投林路:AI竞争从“技术领先”转向“产品体验”
Tai Mei Ti A P P· 2025-07-03 09:52
北极光创投合伙人:林路 核心观点: 1、技术发展并非一直呈指数级增长,在初期快速突破后会趋缓。 2、基础模型差距缩小,行业竞争的焦点就会从"技术领先"转向"产品体验",而这正是创业公司大展身 手的窗口期。 3、一个产品未能构建足够强的数据壁垒或用户体验护城河,它就极易被基础模型整合、甚至直接取 代。 4、AI并不会改变人类的根本需求,但它有能力重塑服务的实现方式,甚至重构服务逻辑的能力,带来 更丰富的互动形式和更强的系统延展性。 本文内容源于北极光创投近期的一次闭门会议。林路先生(北极光创投合伙人)分享了他对 当前AI的看法洞见。林路先生于2012年加入北极光,已在传统互联网与移动互联网领域深 耕14年,积累了丰富的经验。他参与投资及投后管理的项目众多,包括元保(YB)、 XSKY、VIPKID、火花思维、棕榈大道、观脉科技等。 在讨论人工智能之前,我们有必要先理解两条至关重要的曲线。 长期以来,许多人受到互联网时代"指数级增长"神话的影响,误以为技术演进必然是持续加速的,就如 左图中那条虚线所示。 同时,随着 DeepSeek 的开源策略,以及阿里"千问"等国产模型的陆续上线,基础模型之间的差距进一 步缩小 ...
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 04:46
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 如果一个视觉语言模型(VLM)只会"看",那真的是已经不够看的了。 因为现在真实世界的任务简直不要太复杂,要想让AI干点实事儿,光有多模态还不够,必须还得有 深度思考 的强推理能力。 而就在刚刚, 智谱 发布并开源了一个仅9B大小的模型—— GLM-4.1V-9B-Thinking ,在28项评测中一举拿下 23个SOTA! 毫无悬念地成为10B级别里 效果最好的VLM模型 ;而在18项评测中,它都可以与自身8倍参数量的Qwen-2.5-VL-72B一较高下,甚至是超 越的程度。 整体来看,GLM-4.1V-9B-Thinking之所以能够这般"以小搏大",核心原因就是 会思考 : 引入了 思维链 (Chain-of-Thought)推理机制,并通过 课程采样强化学习 (RLCS,Reinforcement Learning with Curriculum Sampling)来全面提升模型能力。 值得一提的是,在智谱这次发布新模型之际,浦东创投集团和张江集团对其进行了 10亿元投资 ,并将于近期完成首次交割。 评测是一方面,但也正如我们刚才提到的,现在的A ...
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 03:51
一水 发自 凹非寺 量子位 | 公众号 QbitAI 没错,这就是阿里通义语音团队最新开源的 泛音频生成模型ThinkSound ,主要用于视频配音,主打 让每一帧画面都有专属匹配音效 。 据介绍,它首次将今年大热的 CoT思维链推理 引入了音频领域,解决了传统视频配乐技术往往只能生成单调的背景音,而难以捕捉画面中的 动态细节和空间关系的难题。 AI音效已经进化成这样了吗?? 打开声音 ,来快速感受一下最新feel: 模拟婴儿哭声,那叫一个高低起伏、荡气回肠,整个节奏和婴儿表情姿态神同步了。 一辆火车由远及近驶来,整个背景音也颇具空间层次感,毫不违和。 甚至连小号这种乐器演奏,声音也能和演奏者的动作一一对上。 就是说,AI现在也能像专业音效师一样逐步思考,通过捕捉视觉细节来生成音画同步的高保真音频。 官方测评显示,ThinkSound在业界知名的音视频数据集VGGSound上,对比6种主流方法 (Seeing&Hearing、V-AURA、FoleyCrafter、 Frieren、V2A-Mapper和MMAudio) ,在核心指标上均实现了显著提升。 | Method | | | | Objective ...
3D芯片堆叠,新方法
半导体行业观察· 2025-07-01 01:03
来源:内容 编译自 semiengineering 。 半导体封装的下一个重大飞跃将需要一系列新技术、新工艺和新材料,但它们将共同实现性能的数量 级提升,这对于人工智能时代至关重要。 并 非 所 有 这 些 问 题 都 已 得 到 彻 底 解 决 , 但 最 近 的 电 子 元 件 技 术 大 会 (ECTC) 让 人 们 得 以 一 窥 自 ChatGPT 的推出震惊科技界以来,过去几年中取得的巨大进步。AMD、台积电、三星、英特尔以及 众多设备供应商详细介绍了混合键合、玻璃芯基板、微通道冷却或直接冷却以及背面电源方案散热等 方面的改进。 AMD 高级副总裁兼企业研究员 Sam Naffziger 在一次关于人工智能计算的演讲中表示:"人工智能 改变超级计算机/高性能计算领域的方式令人惊叹。" ChatGPT 和 Gemini 吸收了整个互联网数据并 用于训练模型,但高质量的文本数据已被完全消耗。人工智能变得更加智能的方式是通过所谓的训练 后测试时计算(或思维链推理)的方法。在这一过程中,模型相互检验,生成合成数据并迭代响应, 最终产生更周全的结果。尽管每一次智能的提升都具有巨大的价值,但要获得智能的线性回 ...
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 10:23
机器之心报道 编辑:泽南、陈陈 像人一样推理。 大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。 近日,受到人脑分层和多时间尺度处理机制启发,来自 Sapient Intelligence 的研究者提出了分层推理模型(HRM),这是一种全新循环架构,能够在保持训练稳定 性和效率的同时,实现高计算深度。 具体来说,HRM 通过两个相互依赖的循环模块,在单次前向传递中执行顺序推理任务,而无需对中间过程进行明确的监督:其中一个高级模块负责缓慢、抽象的 规划,另一个低级模块负责处理快速、细致的计算。HRM 仅包含 2700 万个参数,仅使用 1000 个训练样本,便在复杂的推理任务上取得了卓越的性能。 该模型无需预训练或 CoT 数据即可运行,但在包括复杂数独谜题和大型迷宫中最优路径查找在内的挑战性任务上却取得了近乎完美的性能。此外,在抽象与推理 语料库 (ARC) 上,HRM 的表现优于上下文窗口明显更长的大型模型。ARC 是衡量通用人工智能能力的关键基准。 由此观之,HRM 具有推动通用计 ...
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
量子位· 2025-06-19 06:25
Core Viewpoint - The article discusses a new research achievement by a team led by AI expert Tian Yuandong, which introduces a continuous thinking chain model that parallels quantum superposition, enhancing efficiency in complex tasks compared to traditional discrete thinking chains [2][4]. Group 1: Research Findings - Traditional large language models (LLMs) utilize discrete tokens for reasoning, which can be inefficient for complex tasks, requiring O(n^2) decoding steps and often getting stuck in local optima [4]. - Recent studies indicate that using continuous hidden vectors for reasoning can significantly improve performance, although theoretical explanations were previously lacking [5]. - The team demonstrated that a two-layer Transformer with D-step continuous chains of thought (CoTs) can solve directed graph reachability problems, outperforming discrete CoTs models that require O(n^2) decoding steps [7]. Group 2: Methodology - The continuous thinking chain allows for simultaneous encoding of multiple candidate graph paths, akin to breadth-first search (BFS), providing a significant advantage over discrete thinking chains, which resemble depth-first search (DFS) [8]. - A designed attention selector mechanism enables the model to focus on specific positions based on the current token, ensuring effective information extraction [11][12]. - The first layer of the Transformer organizes edge information, while the second layer facilitates parallel exploration of all possible paths [21][22]. Group 3: Experimental Results - The team conducted experiments using a subset of the ProsQA dataset, which required 3-4 reasoning steps to solve, with each node represented as a dedicated token [26]. - The COCONUT model, utilizing a two-layer Transformer, achieved an accuracy close to 100% in solving ProsQA problems, while a 12-layer discrete CoT model only reached 83% accuracy, and a baseline model solved approximately 75% of tasks [27][28]. - The model's behavior was further validated through analysis of attention patterns and continuous thinking representations, supporting the theoretical hypothesis of superposition search behavior [30].
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 09:34
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超 越了人类平均水平。这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。 更进一步的,在结合了外部工具之后,一些模型(如 o3 和 o4-mini-high)甚至在 Codeforces 平台上获得了超过 2700 的 Elo 评分 —— 这个分数已跻身参赛者前 0.1%。 然而,这些简单的量化评估,真的能体现模型解决复杂问题的能力吗?我们不妨先问几个问题:LLMs 真的具备与顶级人类选手相当的推理能力吗?模型的高分究 竟有多少来自真实的推理能力,又有多少是依赖外部工具的结果? 为了解答上述问题,来自纽约大学、普林斯顿大学等 8 家机构的研究者提出了 LiveCodeBench Pro ,这是一个极具挑战性的竞技编程基准测试。 值得一提的是,这项研究有多位参加过国际算法竞赛。例如,作者之一、纽约大学本科生 Zihan Zheng 曾代表学校参加 ICPC 世界总决赛。 LiveCodeBench Pro 收录了 5 ...