Workflow
大模型推理
icon
Search documents
复杂系统自学习“逆最优”理论与方法专题论坛在京举行
Huan Qiu Wang Zi Xun· 2025-07-10 08:40
来源:光明网 中国科学院院士、中国自动化学会理事长、中国空间技术研究院研究员杨孟飞出席。中国自动化学会特 聘顾问、青岛科技大学副校长、上海交通大学教授李少远,华北电力大学教授肖峰,中国自动化学会副 监事长、安徽大学教授孙长银,中国自动化学会理事、武汉大学教授张俊作主旨报告。中国自动化学会 理事、中国科学院自动化研究所研究员魏庆来,英国格拉斯哥大学教授于慧,英国剑桥大学助理教授那 晓翔作专题报告。北京航空航天大学教授王卓主持报告环节。中国科协第十届青年人才托举工程入选 者、中国科学院自动化研究所副研究员王晨主持圆桌讨论环节。 7月5日,第二十七届中国科协年会复杂系统自学习"逆最优"理论与方法专题论坛在北京召开。本次专题 论坛由中国科协主办,中国自动化学会承办,与会专家围绕实际复杂系统最优运行建模等非共识议题, 共同探讨复杂非线性系统自学习"逆最优"发展路径。 张俊教授作题为"基于生成式人工智能和科学智能(AI4S)的复杂电力系统数智化关键技术与应用"的报 告 孙长银教授作题为"试错驱动具身智能学习与进化"的报告 魏庆来研究员作题为"自学习最优控制"的报告 杨孟飞理事长出席论坛 李少远教授作题为"基于'智能'增强 ...
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 15:52
生成式AI 一、 从亲密伙伴抢人,Cursor挖走Claude Code两位核心人物 1. Cursor开发商Anysphere挖走Claude Code核心人物Boris Cherny和Cat Wu,尽管双方 是密切合作伙伴; 2. Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型; 3. Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元,AI编程市场竞争加 剧。 https://mp.weixin.qq.com/s/xsPfOFxttF7s9bq3o-F_Iw 二、 智谱开源GLM-4.1V-Thinking视觉推理模型,10B级SOTA 1. 智谱开源GLM-4.1V-9B-Thinking模型,采用课程采样强化学习策略,在18项权威评测 中超越8倍参数的72B模型; 2. 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D-RoPE和3D- RoPE位置编码增强处理能力; 3. 训练过程分为多模态预训练、长上下文持续训练、监督微调和课程采样强化学习四个阶 段,显著提升逻辑推理能力。 https://mp.weixin.qq. ...
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 07:44
本文共同第一作者为张均瑜与董润沛,分别为伊利诺伊大学厄巴纳-香槟分校计算机科学研究生与博士生;该研究工作在伊利诺伊大学厄巴纳-香槟分校张欢 教授与 Saurabh Gupta 教授,加州大学伯克利分校 Jitendra Malik 教授的指导下完成。 「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011) 在思维节奏这件事上,人类早已形成一种独特而复杂的模式。 他们提出了一种新的测试时推理调控框架—— AlphaOne ,主张让模型反其道而行:先慢速思考,再快速推理。 令人意外的是,这一策略不依赖任何额外训练,仅需在测试阶段引入一个全局推理调控超参数 α ,即可显著提升模型的推理准确率,同时让生成过程更加 高效紧凑。或许,是时候重新思考: AI 真的需要「像人类」那样思考吗? 看似聪明的推理,其实是不懂停下来的错觉 近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在复 ...
一次集成,减少 80% 适配工作!从 0 到 1 开发一款 MCP Server 难不难?
AI前线· 2025-06-20 02:47
既然 MCP 在大模型应用开发中如此重要,要从 0 到 1 开发出一款 MCP Server 到底难不难? 作者 | 冬梅 硅谷的咖啡厅里,永远流传着这样的传说:一个天才开发者,一台电脑,一段颠覆行业的代码。但当 31 岁的 Maor Shlomo 在特拉维夫的公寓里敲下 Base44 的第一行代码时,他没想到这个故事会以 8000 万美元的现金收购落幕——没有风投加持,没有百人团队,只有 8 名员工和 180 天的闪电战。 AI 正在快速发展,大语言模型处于这一变革的前沿。随着这些模型在理解和生成类人文本方面日益 精进,将其与外部系统集成的需求也显著增长。这种集成有望开启一个全新的应用时代,使之能够利 用真实世界的数据和工具来增强功能,并提供更符合语境的响应。 然而,将大语言模型连接到外部资源的传统方法通常需要针对每个数据源进行复杂且定制化的实现, 从而导致架构碎片化且难以扩展。 Anthropic 的模型上下文协议 (MCP) 应运而生,成为应对这些挑战的关键解决方案。 过去,如果我们想让 AI 处理数据,通常只有两种选择:要么依赖预训练好的静态知识库,要么手动 上传数据。这种方式不仅效率低下,还存在明显 ...
半壁江山都来了!中国AI算力大会演讲嘉宾全揭晓,同期异构混训、超节点两大研讨会议程公布
傅里叶的猫· 2025-06-17 15:30
6月26日, 2025中国AI算力大会 将在北京中关村东升科技园万丽酒店正式举行! 作为智一科技旗下 智猩猩 与 智东西 共同发起主办、 芯东西 协办的首届AI算力大会,本次大会计划邀请近 30位重量级嘉宾与会带来致辞、报告、演讲和对话,全方位解构DeepSeek引爆的AI算力变局。同时,大会 也是"智领未来"北京人工智能系列活动之一。 2025中国AI算力大会设有主会场、分会场和展览区。其中,主会场将进行 高峰论坛、AI推理算力专题论坛 和智算中心专题论坛 ,分 会场全天将分别进行 智算集群异构混训技术研讨会、超节点技术研讨会 。其 中,分会场的两场研讨会为闭门制,主要面向持有闭门专享票、贵宾通票的观众开放。 | | | 2025中国AI算力大会 | | | --- | --- | --- | --- | | | | 主办: 智智强 普東西 | | | | | 大会日程 | | | 日期 | 时段 | 主会场 | 分会场 | | 6月26日 | 上午 | 高峰论坛 | 智算集群异构混训 技术研讨会 (闭门制) | | | 下午 | Al推理算力专题论坛 | 超节点技术研讨会 (闭门制) | | | | 智算 ...
云天励飞-U:推理需求攀升 卡位国产化AI算力机会
陈宁表示,DeepEdge10芯片是云天励飞自主研发的AI推理高性能芯片,采用国产14nmChiplet工艺,内 含国产RISC-V核。基于自主研发的"算力积木"AI芯片架构,云天励飞将标准计算单元像搭积木一样, 封装成不同算力的芯片,覆盖8T—256T算力应用,可实现7B、14B、130B等不同参数量大模型的高效 推理。DeepEdge10系列芯片已完成DeepSeekR1系列模型、FlashMLA适配和国产鸿蒙操作系统的适配, 可支持包括Transformer模型、BEV模型、CV大模型、LLM大模型等各类不同架构的主流模型,并在机 器人、边缘网关、服务器等领域实现商业化应用,为深空探测实验室的自主可控星载计算提供支撑。 另外依托算法芯片化核心技术平台,云天励飞还打造了更适配于大模型运算要求的神经网络处理器 NNP400T。2025年,公司将继续加强神经网络处理器技术研发,通过面向大模型的专用指令集、专用 算子、专用的存算一体架构、保证精度的低比特混合量化,实现算法与芯片的联合深度优化,满足大模 型的推理需求;开发包括芯片工具链、软件开发包等组成的配套全栈软件开发平台,为公司神经网络处 理器生态化发展提供 ...
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 07:37
在大模型快速演进的浪潮中,模型本身不再是唯一的挑战, 推理慢、训练不稳、数据难迁 等"系统性问题"正成为决定技术能否规模化落地的关键变量。 特别是对国产 AI 而言,算力适配、系统容错、数据合规等问题,更是绕不开的现实考验。 6 月 27~28 日, AICon 全球人工智能开发与应用大会·北京站 将带来聚焦系统层的七大关键议题,涵盖 国产芯片推理适配、开源部署实践、大规模训练容 错机制、AI 数据底座的云原生演进 等多个方向。既有深耕国产平台的实践派,也有活跃在开源社区的一线开发者,共同勾勒出国产 AI 基础设施建设的技术 全貌。 了解大会日程查看: https://aicon.infoq.cn/2025/beijing/schedule 以下是这七个演讲议题前瞻,一起提前了解他们将带来的分享内容: 昇腾 DeepSeek 大模型推理架构 by 王建辉 华为昇腾 / 架构师 在大模型加速部署进入深水区的今天,如何在国产算力平台上高效运行大模型,已成为影响应用落地的重要一环。本次分享将介绍昇腾 DeepSeek 大模 型推理架构,性能优化方案及关键优化措施,以及优化建议。 ✨ 关键词: 昇腾芯片推理优化 / ...
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 04:49
R-KV团队 投稿 量子位 | 公众号 QbitAI 推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的"废话",找不到重点…… 一种可以把大模型的"碎碎念"转化为可控记忆条目的高效压缩方法,出现了! R-KV开源登场: 显存↓90%、吞吐×6.6、准确率=100% 。 它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。 让"长时间推理"不再是奢侈品。 项目详情可见文末链接。 R-KV三步走:冗余识别+重要性评估+动态淘汰 链式思考(Chain-of-Thought,CoT)让LLM解题思路清晰可见,却也让推理长度指数级膨胀。 以DeepSeek-R1-Llama-8B为例,一道AIME数学题就能写出 3.2万 个Token:模型权重15.5GB,KV缓存再吃 4.1GB ——显存瞬间见底。 可视化:R-KV vs. SnapKV 现有KV压缩方法(SnapKV、StreamingLLM、H2O等)主要针对 长输入 设计,可一旦模型在输出端开始"碎碎念",相似句子之间互相打高 分注意力,反而让"按注意力删低分"策略失灵: ...
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 06:42
采访嘉宾|尹良升,SGLang 核心开发者 编辑|罗燕珊 2025 年 5 月, SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方 案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。 近日,InfoQ 专访了 SGLang 核心开发者尹良升 ,他分享了该项目背后的关键技术、工程挑战 与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控 制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键 能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。 尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计 算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优 化。 6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演 讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探 讨其在实际应用中的优化 ...
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 02:25
西风 发自 凹非寺 量子位 | 公众号 QbitAI 该测试引来 OpenAI前A GI Readine ss团队负责人Miles Brundage 的转发关注。 OpenAI"最新最强版"推理模型 o3-pro ,实际推理能力到底有多强? 全球 首位全职提 示工程师Riley Go odside 来给它上难度: 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时, 每个单词最后一个字母连起来看,也能对应这首歌名 。 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测, o3只能做对个大概 ,通常只能把最后几个字母凑对。 虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。 PS: 苹果前几天发了个新研究 ,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的"模式匹配",所谓思 考只是一种假象。 除了网友实测外,各大评测榜单已陆续同步更新排名。 总结来看,和官方给的测试结果略有不同。 官方测评中,o3-pro超越o3、o1-pro,成为当前 ...