Workflow
推理
icon
Search documents
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 02:25
随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。我们联合业界知名大模型专家,为大家退出了大模型1v6论文辅导小班课! ⼀、有关大模型核心的几个点⭐ 本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键 技术。我们将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法; 在知识扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方 面,研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多 模态理解等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、 ...
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 08:59
如果告诉你, AI 在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信 吗? 复旦 NLP 实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现: 游戏不仅是娱乐 工具,更是训练 AI 推理能力的宝贵资源。 Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning 论文链接: https://arxiv.org/abs/2505.13886 代码仓库: https://github.com/tongjingqi/Code2Logic 标题: 数据和模型: https://huggingface.co/Code2Logic 引言 高质量多模态推理数据的极度稀缺,制约了视觉语言模型( VLMs )复杂推理能力的提升。那么,有 没有一种低成本又可靠的方法来大规模生成这些数据呢? 复旦与字节的研究团队创新性地提出了一个巧妙的思路: 利用游戏代码自动合成视觉推理数据。 | A | ਟ | E | ч | 0 | - | | --- | --- | --- | --- | --- | ...
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 07:13
⼀、课题简介⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动 态扩展和复杂推理三大方向的关键技术。 课程将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法;在知识 扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方面,研究 链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多模态理解 等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、课程目的 三、招生人数⭐ 6⼈/期(⾄多8人) 四、招生对象⭐ 五、课程收获 解决 ...
为什么 DeepSeek 大规模部署很便宜,本地很贵
AI前线· 2025-07-04 06:10
作者 | Sean Goedecke 译者 | 王强 策划 | Tina 什么是批处理推理? GPU 擅长执行大型矩阵乘法(GEMMs,或"通用矩阵乘法")。假设你有一个 token,你想通过模型 传递(即通过乘以其所有权重,其他架构细节不谈)。你将其表示为一个与模型维度(或隐藏大小) 相匹配的向量(即 1x 其大权重矩阵的宽度),然后将其乘过去。那就是 1 个 GEMM。但如果你想 一次通过一批十个 token,也仍然只是一个 GEMM,因为你可以将 token 堆叠成一个矩阵(10x 模 型维度)。这比执行十个稍小的 GEMM 要快得多。因此,推理服务器的实现可能看起来是这样的: 请注意,服务器会决定拉取多大的批次大小。这是吞吐量和延迟之间的权衡。如果你不进行批处理, 只是逐个处理 token,那么没有用户会在队列中等待(上述步骤 3),所以延迟很低(假设你有足够 的 GPU)。然而,如果你进行大量批处理,延迟会很高,因为用户将等待到批次大小填满,但吞吐 量会高得多,因为 GPU 的使用效率更高。 1. 一个请求带着提示词进来 2. 该提示被预填充(通过注意力传递,我们稍后将看到如何将它也做批处理),形成 ...
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 01:42
VScan团队 投稿 量子位 | 公众号 QbitAI 多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越"吃不消": 视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。 为解决这个问题, 腾讯AI Lab联合CMU 提出全新解决方案 VScan 。 该方法聚焦于大规模视觉语言模型推理阶段的效率瓶颈,通过精妙的两阶段视觉token筛选机制,在几乎不损性能的前提下,实现高达2.91x 的推理加速。无需修改模型架构、无需重新训练, 兼容FlashAttention, VScan为业界提供了一种轻量、通用、即插即用的推理加速方案。 为了处理更复杂、更丰富的视觉输入,现有LVLM往往需要编码远超文本Token规模的视觉信息。例如,LLaVA-NeXT在处理高分辨率图像时 会引入多达2,880个视觉Token,而Qwen2.5-VL在应对多图像或视频输入时,甚至能处理高达16,384个视觉Token——这一规模已远远超过 传统语言模型所处理的输入长度。 随着Token数量的激增,输入序列随之拉长,而自注意力机制的计算复杂度呈平方增长,这使得推理阶段 ...
科创板年内新增最大IPO融资项目拆解:摩尔线程的商业化初探
Hua Er Jie Jian Wen· 2025-07-03 13:09
"国产GPU第一股"之战已经打响。 作为"国产GPU四小龙"的摩尔线程智能科技(北京)股份有限公司(下称"摩尔线程")、沐曦集成电路 (上海)股份有限公司(下称"沐曦集成")科创板IPO均已先后获得受理。 同时,GPU大厂壁仞科技、燧原科技、格兰菲智能科技股份有限公司则处于IPO辅导阶段。 这意味着,"国产GPU四小龙"都踏上了资本化之路。 其中摩尔线程无疑是最为受瞩的存在。 摩尔线程的核心团队成员基本来自英伟达,旗下的MTT S80显卡的单精度浮点算力性能接近英伟达RTX 3060,自建的千卡GPU智算集群效率超过同等规模国外同代系GPU集群。 2024年,摩尔线程收入已经达到4.38亿元,同比增长了超2倍。 但由于同期研发费用仍达到13.59亿元,造成的净亏损仍达到14.92亿元,但同比已减亏1成左右。 摩尔线程计划募资80亿元,投向AI训推一体芯片、图形芯片和AI SoC 芯片的研发。 这是今年上半年科创板新增IPO项目中最大的一笔募资规模。 同期获得受理的沐曦集成IPO募资额只有摩尔线程的一半左右。 谁将成为"国产GPU第一股",市场正在翘首以待。 新品"崭露头角"? 这一方面受益于市场对大模型训练、 ...
智谱再获10亿融资,推出会看“苏超”的开源新模型
Guan Cha Zhe Wang· 2025-07-03 10:30
(文/陈济深 编辑/张广凯) 7月2日,智谱开放平台产业生态大会在上海浦东张江科学会堂举办。智谱CEO张鹏在主题演讲中发布了智谱携手生态伙伴迈向AGI的两项最新成果:一是开 源发布新一代通用视觉语言模型GLM-4.1V-Thinking,以推理能力为核心突破,刷新10B级别多模态模型性能上限;二是MaaS全新上线Agent聚合平台「应用 空间」,全面激活行业场景中的AI能力,联动Z基金启动Agent开拓者数亿元专项扶持计划。 值得注意的是,本次智谱发布的新模型不仅可以输入一个PPT后自动生成汇报内容、演讲稿;甚至输入一段"苏超"视频,还能得到一段足球解说……如今的 大语言模型不只会看文字,还会看图片、视频。 "AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。"张鹏指出,视觉推理能 力是L3中很重要的能力。 人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。 对于打造万卡集群,孙颖解释道:"万卡集群"指的是由上万张如英伟达的H100这样的高性能AI计算加速卡组成的超级计 ...
҈ 热 ҈ 热 ҈ 热 ҈ !高温宅家自救指南来了
AI研究所· 2025-07-03 09:47
不信?浅尝一口"汤" 但降温效果MAX❄️ "神器"内部分内容 细 思 极 " 凉 " 友情提示: 别挣扎了!小智奉上贴心建议: 躺平!啃瓜!打开手机 因为清凉版"解暑神器"已上线→ 我知道了! o ( TTTTE N TI P D C 她用冰块冻了 个小遗阳帽戴头上! 便宜 帽子完成 凉快了禁 水块化了说明 而且更凉快了~ 屏幕前的你猜对了吗❓ 这只是 「海龟汤之谜」 题库的冰山一角! 从细思极恐到温情治愈 从脑洞大开的都市传说到古灵精怪的校园秘闻 「海龟汤之谜」 总能精准接住你的奇思妙想! 或许只要1小时! 39℃+的夏天,连风都是烫的 出门5分钟,流汗2小时? 不,是从→→→→ 小直在烈 下把》 E k块扔了 反而更凉快了 (G 这题我会? L 12 . 11 C 冰块砸到喷泉里, 溅水降温? Z 不是哦~ U 01 0 ● G 她把冰块扔去 冰镇饮料了? 0 方向偏啦~! Cach Colo P 98 Stanc 接近真相咯~ per 1993 Q 母 现在打开讯飞星火 搜 「海龟汤之谜」 就能玩! 解锁夏日推理派对+10086种离谱剧情 空调WiFi配海龟汤 这个夏天才算没白过! 扫码直达,一起 " ...
华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025
量子位· 2025-07-03 09:00
FOT团队 投稿 量子位 | 公众号 QbitAI 大模型越来越大,通用能力越来越强,但一遇到数学、科学、 逻辑这类复杂问题,还是常"翻车"。 为破解这一痛点, 华为诺亚方舟实验室 提出全新高阶推理框架 —— 思维森林(Forest-of-Thought,FoT) 。 该方法借鉴人类"多角度思考、反复验证"的认知方式, 打破传统LLM的线性推理范式,通过构建多棵并行推理树, 引入动态自我修正机制与 多视角共识决策策略。 论文将在7月份召开的ICML 2025大会上发表和开源。 在此基础上,FoT在多个数学推理任务中表现突出, 进一步展现了FoT相较于ToT(Tree-of- Thought)更优的推理能力。 具体而言,在GSM8K数据集上,结合FoT的QwQ- 32B模型准确率高达97.33%,超过了GPT- 4o和rStar-Math等先进模型;在更具挑战性的 AIME 2024测试中,更是将准确率提升至53.33%, 较对比方法rStar-Math高出6.66%。 | Table 5. The following summarizes the performance of FoT and | | | | ...
大模型角力视觉推理,推理AI新时代来临
输入一个PPT,自动生成汇报内容、演讲稿;输入一段"苏超"视频,得到一段足球解说……如今的大语 言模型不只会看文字,还会看图片、视频。 7月2日,智谱发布并开源视觉语言大模型GLM-4.1V-Thinking。这款通用推理型大模型支持图像、视 频、文档等多模态输入,可用于复杂认知任务。 "就像人一样。眼睛看到了复杂的视觉信号,不光是简单的信号接收,还可以根据视觉信号进一步推 理,理解复杂的物理世界。"在现场演示时,智谱CEO张鹏介绍道,智谱基于预训练构造了视觉理解模 型,监督微调使其初步具备推理能力,再基于深度学习大幅提高推理能力,在业内首次把推理能力和视 觉理解能力有机结合在一起。 人类不仅希望AI能思考,还希望AI能执行——通过自主智能体的方式,现有的大模型能力能转化成真 正的生产力。 此前,大模型可以用于代码生成;而视觉推理能力使得AI能够"看懂"和"理解"视觉信息,比如用户界面 (UI)的设计图、原型图甚至屏幕截图,可以辅助产品经理生成代码重构用户界面。 "视觉推理能力还可以用于智能体,让它理解GUI(图形用户界面),比如理解手机、PC上复杂的用户 操作界面,形成精准的操作逻辑。"据张鹏介绍,GLM- ...