Workflow
思维链推理
icon
Search documents
智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一:同尺寸效果最好
IPO早知道· 2025-07-09 10:01
GLM-4.1V-9B-Thinking标志着GLM系列视觉模型实现从感知走向认知的关键跃迁。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 学科解题:支持对数学、物理、生物、化学等学科问题的看图解题,通过推理给出详细的思考过程; 据 IPO 早 知 道 消 息 , GLM-4.1V-9B-Thinking 凭 借 9B 的 模 型 尺 寸 , 日 前 成 功 登 顶 HuggingFace Trending第一 。 | Hugging Face | Q Search models, datasets, users ... | | | | | --- | --- | --- | --- | --- | | Models 1,851,126 | Filter by name | Full-text search | Add filters | 1J Sort: Trending | | THUDM/GLM-4.1V-9B-Thinking | | | | | | 15. Image-Text-to-Text . . . : 10B = Updated about 15 ...
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 04:46
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 如果一个视觉语言模型(VLM)只会"看",那真的是已经不够看的了。 因为现在真实世界的任务简直不要太复杂,要想让AI干点实事儿,光有多模态还不够,必须还得有 深度思考 的强推理能力。 而就在刚刚, 智谱 发布并开源了一个仅9B大小的模型—— GLM-4.1V-9B-Thinking ,在28项评测中一举拿下 23个SOTA! 毫无悬念地成为10B级别里 效果最好的VLM模型 ;而在18项评测中,它都可以与自身8倍参数量的Qwen-2.5-VL-72B一较高下,甚至是超 越的程度。 整体来看,GLM-4.1V-9B-Thinking之所以能够这般"以小搏大",核心原因就是 会思考 : 引入了 思维链 (Chain-of-Thought)推理机制,并通过 课程采样强化学习 (RLCS,Reinforcement Learning with Curriculum Sampling)来全面提升模型能力。 值得一提的是,在智谱这次发布新模型之际,浦东创投集团和张江集团对其进行了 10亿元投资 ,并将于近期完成首次交割。 评测是一方面,但也正如我们刚才提到的,现在的A ...
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 03:51
一水 发自 凹非寺 量子位 | 公众号 QbitAI 没错,这就是阿里通义语音团队最新开源的 泛音频生成模型ThinkSound ,主要用于视频配音,主打 让每一帧画面都有专属匹配音效 。 据介绍,它首次将今年大热的 CoT思维链推理 引入了音频领域,解决了传统视频配乐技术往往只能生成单调的背景音,而难以捕捉画面中的 动态细节和空间关系的难题。 AI音效已经进化成这样了吗?? 打开声音 ,来快速感受一下最新feel: 模拟婴儿哭声,那叫一个高低起伏、荡气回肠,整个节奏和婴儿表情姿态神同步了。 一辆火车由远及近驶来,整个背景音也颇具空间层次感,毫不违和。 甚至连小号这种乐器演奏,声音也能和演奏者的动作一一对上。 就是说,AI现在也能像专业音效师一样逐步思考,通过捕捉视觉细节来生成音画同步的高保真音频。 官方测评显示,ThinkSound在业界知名的音视频数据集VGGSound上,对比6种主流方法 (Seeing&Hearing、V-AURA、FoleyCrafter、 Frieren、V2A-Mapper和MMAudio) ,在核心指标上均实现了显著提升。 | Method | | | | Objective ...
3D芯片堆叠,新方法
半导体行业观察· 2025-07-01 01:03
来源:内容 编译自 semiengineering 。 半导体封装的下一个重大飞跃将需要一系列新技术、新工艺和新材料,但它们将共同实现性能的数量 级提升,这对于人工智能时代至关重要。 并 非 所 有 这 些 问 题 都 已 得 到 彻 底 解 决 , 但 最 近 的 电 子 元 件 技 术 大 会 (ECTC) 让 人 们 得 以 一 窥 自 ChatGPT 的推出震惊科技界以来,过去几年中取得的巨大进步。AMD、台积电、三星、英特尔以及 众多设备供应商详细介绍了混合键合、玻璃芯基板、微通道冷却或直接冷却以及背面电源方案散热等 方面的改进。 AMD 高级副总裁兼企业研究员 Sam Naffziger 在一次关于人工智能计算的演讲中表示:"人工智能 改变超级计算机/高性能计算领域的方式令人惊叹。" ChatGPT 和 Gemini 吸收了整个互联网数据并 用于训练模型,但高质量的文本数据已被完全消耗。人工智能变得更加智能的方式是通过所谓的训练 后测试时计算(或思维链推理)的方法。在这一过程中,模型相互检验,生成合成数据并迭代响应, 最终产生更周全的结果。尽管每一次智能的提升都具有巨大的价值,但要获得智能的线性回 ...
8个数据集全面胜出!思维链推理刷新图学习表现上限
量子位· 2025-06-08 03:40
GCoT团队 投稿 量子位 | 公众号 QbitAI 图神经网络还能更聪明?思维链提示学习来了! 由于图数据拥有复杂的非线性结构和缺少文本信息,语言模型中的思维链(Chain-of-Thought,CoT)提示 学习方法难以简单直接地应用于图数据。 基于此,来自新加坡管理大学和中国科学技术大学的研究者们提出了 GCo T ——首个应用于无文本图数据 的类思维链提示学习框架。 实验结果表明,GCoT在八个图数据集上的少样本节点分类与图分类任务全面超越现有SOTA方法,尤其在 1-5样本的极少样本设置下表现最为显著。 GCoT方法解析 GCoT的核心思想是将下游的推断过程拆分为多个推断步骤。具体包含: 研究 者们在八个公开 数据集上进行了全面实验以评估和分析GCoT。 整体框架 研究者们将思维链提示学习分为三个部分: 2. 思维构建 为有效利用多层结构信息,研究人员将每一层的嵌入表示做加权求和得到融合后的"思维" 。 3. 基于思维的提示学习Thought conditioned prompt learning 研究人员设计的"思维" 捕获了图中节点的结构知识并用于指导下一步推断。由于每个节点可能具有不同 的特质 ...
海天瑞声20250605
2025-06-06 02:37
Q&A 海天瑞声在 2024 年度的财务表现如何? 海天瑞声 20250605 摘要 海天瑞声 2024 年扭亏为盈,归母净利润达 1,134 万元,经营性现金流 净额 2,873 万元,主要受益于多模态数据订单增加、高毛利产品占比提 升及定制服务毛利率改善。公司积极拓展海外市场,尤其在智能驾驶领 域,紧跟车企出海趋势,布局海外数据采集业务,优化智能驾驶数据处 理算法和平台功能。 公司持续投入研发,在智能驾驶数据处理平台、智能化数据运营平台和 Data x 数据中台建设上取得重要进展,并不断增厚算法储备,优化推理 框架,启动语音大模型自研项目,提升点云标注效率,支撑国家人工智 能基础设施建设。 海天瑞声确立科技引领战略,通过持续研发投入突破技术瓶颈,推动训 练数据生产智能化、规模化,重点布局多模态融合、思维链推理等领域, 构建差异化竞争壁垒,如针对自动驾驶点云标注场景提出动静态分类标 注方案。 在智能驾驶标注领域,公司推出多帧点云叠加及物体跟踪算法,提升标 注效率,并逐步向 4D 标注转化,自研 SLAM 算法优化泊车场景 4D 点 云标注,开发智能分段加载解决方案,突破高难度边缘场景标注瓶颈。 2024 年 ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...
卓驭科技接入通义大模型,联合打造端到端世界模型
阿里云· 2025-04-24 09:13
24日 ,行业一流的智能驾驶供应商及服务商卓驭科技宣布接入通义大模型,并基于阿里云打造端到 端世界模型。此外,其大数据等核心业务系统已接入阿里云。 图|卓驭科技总经理沈劭劼(右)、 阿里云智能集团副总裁、AI汽车行业线总经理李强 卓驭的端到端世界模型区别于传统端到端模型, 引入了强化学习和思维链推理技术 ,不仅将城市领 航辅助的安全性提升一个层级,也支持千人千面驾驶风格、自然语言交互控制驾驶行为、复杂场景慢 推理的智能化体验。 由于卓驭大模型训练采用预训练+后训练结合的方式,以"天"为单位的迭代速度对云端算力提出了较 高的需求。 / END / Related reading 相关阅读 对此, 卓驭基于阿里云PAI平台打造了多种GPU融合的算力资源池 。通过存储资源共享,其数据流 动、数据管理等成本显著降低,相比单GPU集群算力, 卓驭模型训练效率提升50%以上 。 同时,阿里云PAI平台的Serverless能力简化了集群的运维难度, 保障训练全链路可观测,帮助卓驭 将GPU利用率提升至95%以上 。 目前,卓驭的大数据系统、智能制造等核心业务已全面搬上阿里云。其中,在研发领域 卓驭已接入 通义灵码、通义千 ...