模型推理

Search documents
复杂系统自学习“逆最优”理论与方法专题论坛在京举行
Huan Qiu Wang Zi Xun· 2025-07-10 08:40
来源:光明网 中国科学院院士、中国自动化学会理事长、中国空间技术研究院研究员杨孟飞出席。中国自动化学会特 聘顾问、青岛科技大学副校长、上海交通大学教授李少远,华北电力大学教授肖峰,中国自动化学会副 监事长、安徽大学教授孙长银,中国自动化学会理事、武汉大学教授张俊作主旨报告。中国自动化学会 理事、中国科学院自动化研究所研究员魏庆来,英国格拉斯哥大学教授于慧,英国剑桥大学助理教授那 晓翔作专题报告。北京航空航天大学教授王卓主持报告环节。中国科协第十届青年人才托举工程入选 者、中国科学院自动化研究所副研究员王晨主持圆桌讨论环节。 7月5日,第二十七届中国科协年会复杂系统自学习"逆最优"理论与方法专题论坛在北京召开。本次专题 论坛由中国科协主办,中国自动化学会承办,与会专家围绕实际复杂系统最优运行建模等非共识议题, 共同探讨复杂非线性系统自学习"逆最优"发展路径。 张俊教授作题为"基于生成式人工智能和科学智能(AI4S)的复杂电力系统数智化关键技术与应用"的报 告 孙长银教授作题为"试错驱动具身智能学习与进化"的报告 魏庆来研究员作题为"自学习最优控制"的报告 杨孟飞理事长出席论坛 李少远教授作题为"基于'智能'增强 ...
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 01:42
VScan团队 投稿 量子位 | 公众号 QbitAI 多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越"吃不消": 视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。 为解决这个问题, 腾讯AI Lab联合CMU 提出全新解决方案 VScan 。 该方法聚焦于大规模视觉语言模型推理阶段的效率瓶颈,通过精妙的两阶段视觉token筛选机制,在几乎不损性能的前提下,实现高达2.91x 的推理加速。无需修改模型架构、无需重新训练, 兼容FlashAttention, VScan为业界提供了一种轻量、通用、即插即用的推理加速方案。 为了处理更复杂、更丰富的视觉输入,现有LVLM往往需要编码远超文本Token规模的视觉信息。例如,LLaVA-NeXT在处理高分辨率图像时 会引入多达2,880个视觉Token,而Qwen2.5-VL在应对多图像或视频输入时,甚至能处理高达16,384个视觉Token——这一规模已远远超过 传统语言模型所处理的输入长度。 随着Token数量的激增,输入序列随之拉长,而自注意力机制的计算复杂度呈平方增长,这使得推理阶段 ...
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 15:52
生成式AI 一、 从亲密伙伴抢人,Cursor挖走Claude Code两位核心人物 1. Cursor开发商Anysphere挖走Claude Code核心人物Boris Cherny和Cat Wu,尽管双方 是密切合作伙伴; 2. Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型; 3. Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元,AI编程市场竞争加 剧。 https://mp.weixin.qq.com/s/xsPfOFxttF7s9bq3o-F_Iw 二、 智谱开源GLM-4.1V-Thinking视觉推理模型,10B级SOTA 1. 智谱开源GLM-4.1V-9B-Thinking模型,采用课程采样强化学习策略,在18项权威评测 中超越8倍参数的72B模型; 2. 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D-RoPE和3D- RoPE位置编码增强处理能力; 3. 训练过程分为多模态预训练、长上下文持续训练、监督微调和课程采样强化学习四个阶 段,显著提升逻辑推理能力。 https://mp.weixin.qq. ...
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 02:02
SRFT团队 投稿 量子位 | 公众号 QbitAI 通过单阶段监督微调与强化微调结合,让大模型在训练时能同时利用专家演示和自我探索试错,有效提升大模型推理性能。 中国科学院自动化研究所深度强化学习团队 联合 美团 ,提出一种 单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning) 。该方法通过基于熵的动态加权机制,将两种训练范式结合。 在大语言模型(LLM)的推理能力提升上,监督微调(SFT) 和强化学习(RL,有时也称作强化微调,RFT)是两条核心技术路线。但它们 各自都存在瓶颈: SFT擅长模仿专家解题思路,类似"背书",能快速为模型打下基础,但缺点是容易陷入死记硬背,缺乏在新问题上灵活应用和寻找最优解的能 力; RFT/RL通过不断试错来探索解题方法,类似"刷题",能够发现更优解法,但其探索过程效率低下,容易面临模式崩溃风险。 因此,目前研究者通常采用两阶段 顺序 方法SFT→RFT/RL:先用SFT学习高质量数据集,再用RFT/RL进一步优化对齐LLM策略(即先"背 完书"再"去刷题")。 然而,这种串行方式不仅影响学习效率,还常常导致模型 ...
新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
自动驾驶之心· 2025-06-29 11:33
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 SonghaoHan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Ideal Dynamic Memory Execution Memory Exploration Mix 1 问题背景与动机 近年来,视觉-语言模型(VLM)凭借对图像与文本的强大对齐能力,为机器人带来了"看图执行指令"的全 新范式。研究者只需给出一句自然语言命令,机械臂便能在仿真或真实桌面环境中完成抓取、移动、放置 等操作。这类系统通常以 VLA 等 "小脑" 模型的形式存在:直接把多模态观测映射到低层控制信号,强调 即时反应与传感-运动耦合。然而,随着任务场景从单步抓取扩展到家庭级复合操作,仅靠小脑反应已难以 胜任;机器人还需要 "大脑" VLM 进行长期规划、记忆管理与自我反思,并与小脑 Controller 高效协同。 现有公开基准的平均任务长度不足 500 步,也很少显式考察大小脑协作(Planner ...
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 07:44
本文共同第一作者为张均瑜与董润沛,分别为伊利诺伊大学厄巴纳-香槟分校计算机科学研究生与博士生;该研究工作在伊利诺伊大学厄巴纳-香槟分校张欢 教授与 Saurabh Gupta 教授,加州大学伯克利分校 Jitendra Malik 教授的指导下完成。 「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011) 在思维节奏这件事上,人类早已形成一种独特而复杂的模式。 他们提出了一种新的测试时推理调控框架—— AlphaOne ,主张让模型反其道而行:先慢速思考,再快速推理。 令人意外的是,这一策略不依赖任何额外训练,仅需在测试阶段引入一个全局推理调控超参数 α ,即可显著提升模型的推理准确率,同时让生成过程更加 高效紧凑。或许,是时候重新思考: AI 真的需要「像人类」那样思考吗? 看似聪明的推理,其实是不懂停下来的错觉 近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在复 ...
一次集成,减少 80% 适配工作!从 0 到 1 开发一款 MCP Server 难不难?
AI前线· 2025-06-20 02:47
既然 MCP 在大模型应用开发中如此重要,要从 0 到 1 开发出一款 MCP Server 到底难不难? 作者 | 冬梅 硅谷的咖啡厅里,永远流传着这样的传说:一个天才开发者,一台电脑,一段颠覆行业的代码。但当 31 岁的 Maor Shlomo 在特拉维夫的公寓里敲下 Base44 的第一行代码时,他没想到这个故事会以 8000 万美元的现金收购落幕——没有风投加持,没有百人团队,只有 8 名员工和 180 天的闪电战。 AI 正在快速发展,大语言模型处于这一变革的前沿。随着这些模型在理解和生成类人文本方面日益 精进,将其与外部系统集成的需求也显著增长。这种集成有望开启一个全新的应用时代,使之能够利 用真实世界的数据和工具来增强功能,并提供更符合语境的响应。 然而,将大语言模型连接到外部资源的传统方法通常需要针对每个数据源进行复杂且定制化的实现, 从而导致架构碎片化且难以扩展。 Anthropic 的模型上下文协议 (MCP) 应运而生,成为应对这些挑战的关键解决方案。 过去,如果我们想让 AI 处理数据,通常只有两种选择:要么依赖预训练好的静态知识库,要么手动 上传数据。这种方式不仅效率低下,还存在明显 ...
半壁江山都来了!中国AI算力大会演讲嘉宾全揭晓,同期异构混训、超节点两大研讨会议程公布
傅里叶的猫· 2025-06-17 15:30
6月26日, 2025中国AI算力大会 将在北京中关村东升科技园万丽酒店正式举行! 作为智一科技旗下 智猩猩 与 智东西 共同发起主办、 芯东西 协办的首届AI算力大会,本次大会计划邀请近 30位重量级嘉宾与会带来致辞、报告、演讲和对话,全方位解构DeepSeek引爆的AI算力变局。同时,大会 也是"智领未来"北京人工智能系列活动之一。 2025中国AI算力大会设有主会场、分会场和展览区。其中,主会场将进行 高峰论坛、AI推理算力专题论坛 和智算中心专题论坛 ,分 会场全天将分别进行 智算集群异构混训技术研讨会、超节点技术研讨会 。其 中,分会场的两场研讨会为闭门制,主要面向持有闭门专享票、贵宾通票的观众开放。 | | | 2025中国AI算力大会 | | | --- | --- | --- | --- | | | | 主办: 智智强 普東西 | | | | | 大会日程 | | | 日期 | 时段 | 主会场 | 分会场 | | 6月26日 | 上午 | 高峰论坛 | 智算集群异构混训 技术研讨会 (闭门制) | | | 下午 | Al推理算力专题论坛 | 超节点技术研讨会 (闭门制) | | | | 智算 ...
云天励飞-U:推理需求攀升 卡位国产化AI算力机会
Zheng Quan Shi Bao Wang· 2025-06-16 11:28
陈宁表示,DeepEdge10芯片是云天励飞自主研发的AI推理高性能芯片,采用国产14nmChiplet工艺,内 含国产RISC-V核。基于自主研发的"算力积木"AI芯片架构,云天励飞将标准计算单元像搭积木一样, 封装成不同算力的芯片,覆盖8T—256T算力应用,可实现7B、14B、130B等不同参数量大模型的高效 推理。DeepEdge10系列芯片已完成DeepSeekR1系列模型、FlashMLA适配和国产鸿蒙操作系统的适配, 可支持包括Transformer模型、BEV模型、CV大模型、LLM大模型等各类不同架构的主流模型,并在机 器人、边缘网关、服务器等领域实现商业化应用,为深空探测实验室的自主可控星载计算提供支撑。 另外依托算法芯片化核心技术平台,云天励飞还打造了更适配于大模型运算要求的神经网络处理器 NNP400T。2025年,公司将继续加强神经网络处理器技术研发,通过面向大模型的专用指令集、专用 算子、专用的存算一体架构、保证精度的低比特混合量化,实现算法与芯片的联合深度优化,满足大模 型的推理需求;开发包括芯片工具链、软件开发包等组成的配套全栈软件开发平台,为公司神经网络处 理器生态化发展提供 ...
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 07:37
在大模型快速演进的浪潮中,模型本身不再是唯一的挑战, 推理慢、训练不稳、数据难迁 等"系统性问题"正成为决定技术能否规模化落地的关键变量。 特别是对国产 AI 而言,算力适配、系统容错、数据合规等问题,更是绕不开的现实考验。 6 月 27~28 日, AICon 全球人工智能开发与应用大会·北京站 将带来聚焦系统层的七大关键议题,涵盖 国产芯片推理适配、开源部署实践、大规模训练容 错机制、AI 数据底座的云原生演进 等多个方向。既有深耕国产平台的实践派,也有活跃在开源社区的一线开发者,共同勾勒出国产 AI 基础设施建设的技术 全貌。 了解大会日程查看: https://aicon.infoq.cn/2025/beijing/schedule 以下是这七个演讲议题前瞻,一起提前了解他们将带来的分享内容: 昇腾 DeepSeek 大模型推理架构 by 王建辉 华为昇腾 / 架构师 在大模型加速部署进入深水区的今天,如何在国产算力平台上高效运行大模型,已成为影响应用落地的重要一环。本次分享将介绍昇腾 DeepSeek 大模 型推理架构,性能优化方案及关键优化措施,以及优化建议。 ✨ 关键词: 昇腾芯片推理优化 / ...