Workflow
SGLang
icon
Search documents
How fast are LLM inference engines anyway? — Charles Frye, Modal
AI Engineer· 2025-06-27 10:01
[Music] Thanks everybody for coming. Um, yeah, I wanted to talk about some work I've done recently on trying to figure out uh just how fast these inference engines are when you run open models on them. Uh so the kind of been talking at AI engineer since it was AI engineer summit two years ago. Um and the for a long time it's basically been the like OpenAI rapper conference, right? It's like because just because yeah, what am I going to do? Am I going to run an agent with BERT? Probably not. Um, and that was ...
AI Infra 工程师们如何应对大模型流水线里的“暗涌”?
AI前线· 2025-06-26 05:44
近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了 华为昇腾技术专家 ZOMI 酱、蚂蚁集团高 级专家马介悦和 SGLang 核心开发者尹良升 一起,在 AICon 全球人工智能开发与应用大会 2025 北京站 即将召开之际,共同探讨大模型 Infra 工程师的实战日常。 作者 | AICon 全球人工智能开发与应用大会 策划 | 罗燕珊 编辑 | 宇琪 Infra 虽然是看不见的"底座",但它却承担着支撑整个大模型系统运行的重量。那么,Infra 工程师 在日常工作中会遇到哪些真实需求与故障类型?开源 Infra 和国产卡适配训练推进过程中,又会 遇到哪些难点和挑战呢? 部分精彩观点如下: 在 6 月 27-28 日将于北京举办的 AICon 全球人工智能开发与应用大会 上,我们特别设置了 【 AI 基础设施与生态构建 】 专题。该专题将聚焦 AI 软硬件及生态系统的建设,讨论如何打造高效 的 AI 开发与应用环境。 以下内容基于直播速记整理,经 InfoQ 删减。 完整直播回放可查看: https://www.infoq.cn/video/kx2h235pHrE7fENMaxlH 大模型工程中 ...
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 07:37
在大模型快速演进的浪潮中,模型本身不再是唯一的挑战, 推理慢、训练不稳、数据难迁 等"系统性问题"正成为决定技术能否规模化落地的关键变量。 特别是对国产 AI 而言,算力适配、系统容错、数据合规等问题,更是绕不开的现实考验。 6 月 27~28 日, AICon 全球人工智能开发与应用大会·北京站 将带来聚焦系统层的七大关键议题,涵盖 国产芯片推理适配、开源部署实践、大规模训练容 错机制、AI 数据底座的云原生演进 等多个方向。既有深耕国产平台的实践派,也有活跃在开源社区的一线开发者,共同勾勒出国产 AI 基础设施建设的技术 全貌。 了解大会日程查看: https://aicon.infoq.cn/2025/beijing/schedule 以下是这七个演讲议题前瞻,一起提前了解他们将带来的分享内容: 昇腾 DeepSeek 大模型推理架构 by 王建辉 华为昇腾 / 架构师 在大模型加速部署进入深水区的今天,如何在国产算力平台上高效运行大模型,已成为影响应用落地的重要一环。本次分享将介绍昇腾 DeepSeek 大模 型推理架构,性能优化方案及关键优化措施,以及优化建议。 ✨ 关键词: 昇腾芯片推理优化 / ...
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:50
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接 突破了benchmark上限 。 具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。 如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。 还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。 经典小游戏成为新Benchmark 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro挑战的这两个游戏,出自一套名为 Lmgame 的benchmark,顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。 不过这次o3-pro直接把所有关卡都通了,颇有种"得一百分是因为卷面只有一百分"的感觉。 但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。 而在o3-pro挑战之前,表现最好的 ...
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:49
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接 突破了benchmark上限 。 还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。 经典小游戏成为新Benchmark o3-pro挑战的这两个游戏,出自一套名为 Lmgame 的benchmark,顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。 具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。 如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。 不过这次o3-pro直接把所有关卡都通了,颇有种"得一百分是因为卷面只有一百分"的感觉。 但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。 而在o3-pro挑战之前,表现最好的 ...
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 06:42
采访嘉宾|尹良升,SGLang 核心开发者 编辑|罗燕珊 2025 年 5 月, SGLang 提出了第一个完全开源的 DeepSeek 大规模专家并行部署方案,该方 案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。 近日,InfoQ 专访了 SGLang 核心开发者尹良升 ,他分享了该项目背后的关键技术、工程挑战 与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从 PD 分离架构带来的尾延迟控 制,到推测解码提升 Token 生成速度,再到 KV 缓存落盘在多轮对话中的显存优化——这些关键 能力使 SGLang 成为支持低成本、大规模模型部署的高性能推理引擎。 尹良升,现就读于上海交通大学 ACM 班,即将前往加州大学伯克利分校 Sky Computing 攻读计 算机博士学位。他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优 化。 6 月 27~28 日,在即将于北京举办的 AICon 全球人工智能开发与应用大会上,尹良升将发表演 讲《SGLang 推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探 讨其在实际应用中的优化 ...
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 14:03
"当 AI 足够强大后,开源还是不是一个好选择?" 整理丨刘倩 程曼祺 嘉宾丨美国西北大学 MLL Lab 博士王子涵 ▲扫描上图中的二维码,可收听播客。《晚点聊 LateTalk》#102 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》 推出的播客节目。"最一手的商业、科技访谈,最真实的从业者思考。" 这是《晚点 LatePost》 「开源对话」系列的第 2 篇。该系列将收录与开源相关的访谈与讨论。系列文章见文末的合集#开源对话。 上周五,DeepSeek 在官方 Twitter 上预告了下一周会连续 5 天开源 5 个代码库,进入 "open-source week"开源周。 目前 DeepSeek 已放出的 4 个库,主要涉及 DeepSeek-V3/R1 相关的训练与推理代码 。 这是比发布技术报告和开源模型权重更深度的开源。 有了训练和推理 工具,开发者才能更好地在自己的系统里,实现 DeepSeek 系列模型的高效表现。 (注:所有 4 个库和后续开源可见 DeepSeek GitHub 中的 Open-Inf ...