vLLM

Search documents
大佬面对面!斯坦福2025 CS336课程全公开:从零开始搓大模型~
自动驾驶之心· 2025-06-24 11:47
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 从事大模型方向的小伙伴有福利了!斯坦福大学 2025 年春季的 CS336 课程「从头开始创造语言模型(Language Models from Scratch)」相关课程和材料现已在网上全面发布! 该课程教职工团队,阵容十分豪华~ 课程视频:https://www.youtube.com/watch? v=SQ3fZ1sAqXI&list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_ 课程主页:https://stanford-cs336.github.io/spring2025/ 讲师Tatsunori Hashimoto:现为斯坦福大学计算机科学系助理教授。其为斯坦福大学 John C. Duchi 和 Percy Liang 的博士后,研究机器学习模型平均性能和最差性能之间的权衡。此前在麻省理工学院攻读研究生,导师是 Tommi Jaakkola 和 David Gifford。本科就读于哈佛大学学习统计学和数学,导师是 Edoardo Airoldi。并且该讲 师的研究成果已 ...
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:50
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接 突破了benchmark上限 。 具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。 如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。 还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。 经典小游戏成为新Benchmark 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro挑战的这两个游戏,出自一套名为 Lmgame 的benchmark,顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。 不过这次o3-pro直接把所有关卡都通了,颇有种"得一百分是因为卷面只有一百分"的感觉。 但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。 而在o3-pro挑战之前,表现最好的 ...
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:49
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接 突破了benchmark上限 。 还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。 经典小游戏成为新Benchmark o3-pro挑战的这两个游戏,出自一套名为 Lmgame 的benchmark,顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。 具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。 如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。 不过这次o3-pro直接把所有关卡都通了,颇有种"得一百分是因为卷面只有一百分"的感觉。 但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。 而在o3-pro挑战之前,表现最好的 ...
对话红帽全球副总裁曹衡康:AI成本下降了 芯片的量一定会起来
Mei Ri Jing Ji Xin Wen· 2025-06-14 09:02
基于这一背景,红帽在2025年推出了推理服务器。根据红帽方面介绍,使用推理服务器的最大优势就是 降低企业的算力成本。不过,该公司高管也在采访中多次强调,红帽不做硬件,只做软件。 随着未来算力成本的降低,行业对芯片算力卡的需求是否会有变化?曹衡康告诉《每日经济新闻》记 者,在他看来,目前AI的应用还不够多。"毕竟用AI成本太高。假设今天(原本)有1000家企业用 (AI),成本降低了会是1万家、10万家、100万家企业用。GPU(图形处理器)的量一定会起来的。 现在我们的做法就是让门槛更低。"曹衡康称。 封面图片来源:视觉中国-VCG211322973159 每经记者|杨卉 每经编辑|魏官红 DeepSeek爆火后,算力成本终会降低成了行业共识。但选择哪一路径,是数据中心、一体机还是推理 服务器,业内尚未有统一的定论和参考模式。6月13日,在"2025红帽媒体Open讲"线下交流会上,红帽 全球副总裁兼大中华区总裁曹衡康告诉《每日经济新闻》记者,在红帽看来,今年是AI(人工智能) 的推理元年。AI进入了推理后,意味着所有的AI应用将正式开始上线运行,并且为企业带来业务收入 以及内部成本控制等实际效益。 红帽大中 ...
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
量子位· 2025-06-13 07:05
西风 发自 凹非寺 量子位 | 公众号 QbitAI 仅用不到 1200行代码,实现最小化且完全可读的vLLM ! Dee pSeek研究 员俞星凯 搞了个开源项目引得大伙拍手叫绝。 项目名为 Nano-vLLM ( 纳米 级-vLLM) ,有三大特点: 下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况。 在RTX 4070硬件、Qwen3-0.6B模型环境中,设置了256个序列的总请求数,输入和输出长度均在100-1024个 token间随机采样。 测试结果be like: | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | vLLM略微领先。 二者输出token量相同,vLLM耗时98.95秒、吞吐量为1353.86 tokens/s,Nano-vLLM耗时101.90秒、吞吐量131 ...
1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
机器之心· 2025-06-13 04:31
机器之心报道 机器之心编辑部 开源社区的人应该对 vLLM 不陌生,它是一个由加州大学伯克利分校团队开发的高性能、开源 LLM 推理和服务引擎,核心目标是提升 LLM 的推理速度(吞吐 量)和资源利用率(尤其是内存),同时兼容 Hugging Face 等流行模型库。 简单来说,vLLM 能让 GPT、Mistral、LLaMA 等主流模型系列跑得更快、消耗更少资源,取得这些效果的关键是其创新的注意力机制实现方案 —— PagedAttention。 近日,DeepSeek AI 研究者、深度学习系统工程师俞星凯 从零开始构建了一个轻量级 vLLM 实现 ——Nano-vLLM,将代码简化到了 1200 行 。 | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | 作者简介 GitHub 地址:https://g ...
Day0迁移、一键部署,华为开源的昇思MindSpore成为大模型开发的“万能钥匙”
量子位· 2025-06-12 08:16
有的—— 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 没有一个大模型可以一统天下。 在如此背景之下,面对众多且日新月异的主流大模型和AI技术,如何能 在一个框架、生态下去体验 ,却成了开发者们"老大难"的问题。 难道就没有一个又快又好又方便的解决办法吗? 这,或许已经成为了AI大模型时代行业里的一个共识。 华为开源的昇思MindSpore ,了解一下。 在这里,主流SOTA大模型的"搬家"是这样的—— 训练Day0迁移 : 只需改动极少极少的代码就OK,并且精度和性能都在线。 △ MindSpore训练Day0迁移方案 推理 是 一键部署 的: 训练转推理全流程自动化,20多个主流大模型开箱即用,百亿参数模型加载只需不到30秒。 △ MindSpore生态快速迁移解决方案的技术架构 那么昇思MindSpore是如何做到,我们继续往下看。 改4行代码,"搬家"DeepSeek-V3 为了让迁移大模型这件事变得无感知,昇思MindSpore"翻译神器"—— MSAdapter 。 简单来说,这个工具可以把其他框架的代码转换成MindSpore能看懂的语言,从而实现 "零损耗" 迁移。 比如PyTorch ...
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 09:48
" 从算力利用率突破到后训练吞吐革新,华为用技术创新定义国产 大模型训练标杆。 " 作者丨李希 现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏 比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 01 不用GPU的"炼"准万亿大模型方法 在深入华为Pa ...
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微
量子位· 2025-05-28 07:28
报告+图谱,也让这句"大模型开发生态,是一场现实世界的黑客松",在现场被开发者一遍遍讨论。 是的,在介绍最新的开源生态报告时,蚂蚁开源委员会副主席王旭,就是这么感叹的—— 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 终于!当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示 了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者, 几乎研究好这份报告可能就够了 。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生态全景图,涵盖19个技术领域、135个项目,进一步给出了大模型开 发生态的参考系。 大模型开发生态,是一场现实世界的黑客松。 大模型开源生态,为何是一场实时直播的黑客马拉松? 在去年的QCon(全球软件开发大会)上的报告和量子位的MEET 2025大会中,蚂蚁对开源社区给出了这样的判断: 开源社区的数据可以说既不全面,也不超前于时代,但是,它是跳出公司的一个客观视角。 今年的技术日上,蚂蚁针对开源生态又发布了新的报告,以及新的 ...
LLM Inference 和 LLM Serving 视角下的 MCP
AI前线· 2025-05-16 07:48
LLM Inference 自从 ChatGPT 问世以后,LLM 相关技术对人工智能技术领域形成了冲击性的影响,许多围绕 LLM 的技术架构的发展也一直在如火如荼的展开,比如 RAG 和 AI-Agent,以及时下比较火爆的 Model Context Protocol (MCP)[1]。在展开之前结合行业现实,笔者认为解释清楚 LLM Inference(LLM 推 理)和 LLM Serving(LLM 服务)的概念是十分必要的。 事实上,由于行业的快速发展,许多概念和知识点一直在业界混淆不清,比如对于 LLM Inference 和 LLM Serving 两个概念我相信不少人都是相当不清晰的。笔者认为造成这些问题的主要原因之一是在 LLM 的工程实践过程中将其所负责的功能范畴相互交错导致的。简单来说,为了满足业务需求很多 LLM 相关的技术框架不得已将 LLM Inference 和 LLM Serving 的功能集合都实现成在一起,导致功 能集合的边界模糊不清。因此,除了从 Inference 和 LLM Serving 的角度去谈 MCP 的发展,解释清 楚此两者的概念范畴同样也是本文的主要目的 ...