vLLM - filings, earnings calls, financial reports, news

vLLM

Search documents

大佬面对面！斯坦福2025 CS336课程全公开：从零开始搓大模型~

自动驾驶之心· 2025-06-24 11:47

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线从事大模型方向的小伙伴有福利了！斯坦福大学 2025 年春季的 CS336 课程「从头开始创造语言模型（Language Models from Scratch）」相关课程和材料现已在网上全面发布！该课程教职工团队，阵容十分豪华~ 课程视频：https://www.youtube.com/watch? v=SQ3fZ1sAqXI&list=PLoROMvodv4rOY23Y0BoGoBGgQ1zmU_MT_ 课程主页：https://stanford-cs336.github.io/spring2025/ 讲师Tatsunori Hashimoto：现为斯坦福大学计算机科学系助理教授。其为斯坦福大学 John C. Duchi 和 Percy Liang 的博士后，研究机器学习模型平均性能和最差性能之间的权衡。此前在麻省理工学院攻读研究生，导师是 Tommi Jaakkola 和 David Gifford。本科就读于哈佛大学学习统计学和数学，导师是 Edoardo Airoldi。并且该讲师的研究成果已 ...

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

量子位· 2025-06-16 04:50

克雷西发自凹非寺量子位 | 公众号 QbitAI o3-pro刚刚也挑战了这两款游戏，而且表现还都不错，直接突破了benchmark上限。具体来说，benchmark中推箱子一共就只做到了被o3-pro突破的第六关；俄罗斯方块则是强行终止的结果，实际上o3-pro根本停不下来。如果和前SOTA——o3比较，o3-pro的成绩也是直接翻倍。还有网友直言，比起大模型竞技场，这套标准才更适合做测试大模型的基准。经典小游戏成为新Benchmark 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏，也成大模型benchmark了。 o3-pro挑战的这两个游戏，出自一套名为 Lmgame 的benchmark，顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来，在o3-pro之前，评估指标是游戏结束之前推动到目标位置的箱子总数。不过这次o3-pro直接把所有关卡都通了，颇有种"得一百分是因为卷面只有一百分"的感觉。但也不必担心，测试基准会动态更新，GItHub仓库中半个月前更新的游戏地图还只有四关，原版游戏更是有足足50多个关卡。而在o3-pro挑战之前，表现最好的 ...

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

量子位· 2025-06-16 04:49

克雷西发自凹非寺量子位 | 公众号 QbitAI 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏，也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏，而且表现还都不错，直接突破了benchmark上限。还有网友直言，比起大模型竞技场，这套标准才更适合做测试大模型的基准。经典小游戏成为新Benchmark o3-pro挑战的这两个游戏，出自一套名为 Lmgame 的benchmark，顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来，在o3-pro之前，评估指标是游戏结束之前推动到目标位置的箱子总数。具体来说，benchmark中推箱子一共就只做到了被o3-pro突破的第六关；俄罗斯方块则是强行终止的结果，实际上o3-pro根本停不下来。如果和前SOTA——o3比较，o3-pro的成绩也是直接翻倍。不过这次o3-pro直接把所有关卡都通了，颇有种"得一百分是因为卷面只有一百分"的感觉。但也不必担心，测试基准会动态更新，GItHub仓库中半个月前更新的游戏地图还只有四关，原版游戏更是有足足50多个关卡。而在o3-pro挑战之前，表现最好的 ...

对话红帽全球副总裁曹衡康：AI成本下降了芯片的量一定会起来

Mei Ri Jing Ji Xin Wen· 2025-06-14 09:02

基于这一背景，红帽在2025年推出了推理服务器。根据红帽方面介绍，使用推理服务器的最大优势就是降低企业的算力成本。不过，该公司高管也在采访中多次强调，红帽不做硬件，只做软件。随着未来算力成本的降低，行业对芯片算力卡的需求是否会有变化？曹衡康告诉《每日经济新闻》记者，在他看来，目前AI的应用还不够多。"毕竟用AI成本太高。假设今天（原本）有1000家企业用（AI），成本降低了会是1万家、10万家、100万家企业用。GPU（图形处理器）的量一定会起来的。现在我们的做法就是让门槛更低。"曹衡康称。封面图片来源：视觉中国-VCG211322973159 每经记者｜杨卉每经编辑｜魏官红 DeepSeek爆火后，算力成本终会降低成了行业共识。但选择哪一路径，是数据中心、一体机还是推理服务器，业内尚未有统一的定论和参考模式。6月13日，在"2025红帽媒体Open讲"线下交流会上，红帽全球副总裁兼大中华区总裁曹衡康告诉《每日经济新闻》记者，在红帽看来，今年是AI（人工智能）的推理元年。AI进入了推理后，意味着所有的AI应用将正式开始上线运行，并且为企业带来业务收入以及内部成本控制等实际效益。红帽大中 ...

DeepSeek研究员1200行代码复刻vLLM，H800硬件实测性能反超原版

量子位· 2025-06-13 07:05

西风发自凹非寺量子位 | 公众号 QbitAI 仅用不到 1200行代码，实现最小化且完全可读的vLLM ！ Dee pSeek研究员俞星凯搞了个开源项目引得大伙拍手叫绝。项目名为 Nano-vLLM （纳米级-vLLM），有三大特点：下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况。在RTX 4070硬件、Qwen3-0.6B模型环境中，设置了256个序列的总请求数，输入和输出长度均在100-1024个 token间随机采样。测试结果be like： | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | vLLM略微领先。二者输出token量相同，vLLM耗时98.95秒、吞吐量为1353.86 tokens/s，Nano-vLLM耗时101.90秒、吞吐量131 ...

1200行代码逆袭！DeepSeek工程师开源轻量级vLLM，吞吐量逼近原版

机器之心· 2025-06-13 04:31

机器之心报道机器之心编辑部开源社区的人应该对 vLLM 不陌生，它是一个由加州大学伯克利分校团队开发的高性能、开源 LLM 推理和服务引擎，核心目标是提升 LLM 的推理速度（吞吐量）和资源利用率（尤其是内存），同时兼容 Hugging Face 等流行模型库。简单来说，vLLM 能让 GPT、Mistral、LLaMA 等主流模型系列跑得更快、消耗更少资源，取得这些效果的关键是其创新的注意力机制实现方案 —— PagedAttention。近日，DeepSeek AI 研究者、深度学习系统工程师俞星凯从零开始构建了一个轻量级 vLLM 实现 ——Nano-vLLM，将代码简化到了 1200 行。 | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | 作者简介 GitHub 地址：https://g ...

Day0迁移、一键部署，华为开源的昇思MindSpore成为大模型开发的“万能钥匙”

量子位· 2025-06-12 08:16

有的—— 金磊发自凹非寺量子位 | 公众号 QbitAI 没有一个大模型可以一统天下。在如此背景之下，面对众多且日新月异的主流大模型和AI技术，如何能在一个框架、生态下去体验，却成了开发者们"老大难"的问题。难道就没有一个又快又好又方便的解决办法吗？这，或许已经成为了AI大模型时代行业里的一个共识。华为开源的昇思MindSpore ，了解一下。在这里，主流SOTA大模型的"搬家"是这样的—— 训练Day0迁移：只需改动极少极少的代码就OK，并且精度和性能都在线。 △ MindSpore训练Day0迁移方案推理是一键部署的：训练转推理全流程自动化，20多个主流大模型开箱即用，百亿参数模型加载只需不到30秒。 △ MindSpore生态快速迁移解决方案的技术架构那么昇思MindSpore是如何做到，我们继续往下看。改4行代码，"搬家"DeepSeek-V3 为了让迁移大模型这件事变得无感知，昇思MindSpore"翻译神器"—— MSAdapter 。简单来说，这个工具可以把其他框架的代码转换成MindSpore能看懂的语言，从而实现 "零损耗" 迁移。比如PyTorch ...

Artificial Intelligence

Artificial Intelligence

不用GPU，大模型每2秒吃透一道高数大题！这就是华为的实力

雷峰网· 2025-05-30 09:48

" 从算力利用率突破到后训练吞吐革新，华为用技术创新定义国产大模型训练标杆。 " 作者丨李希现在，请大家一起数一下"1"、"2" 。 OK，短短2秒钟时间，一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了！而且啊，这个大模型还是不用GPU 来训练，全流程都是大写的 "国产" 的那种。这，就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环，更是在集群训练系统性能方面达到行业领先水平。有多领先？来看一组数据：预训练阶段：昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段：单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是，华为还首次把背后的一大秘籍给亮了出来。具体来说，华为在这次发布的技术报告中，披露了在昇腾CloudMatrix 384超节点上，高效打通大稀疏比MoE强化学习后训练框架的关键技术。此举可以说是让以强化学习（RL）为核心机制的后训练，进入到了超节点集群时代。 01 不用GPU的"炼"准万亿大模型方法在深入华为Pa ...

开源AI开发生态大洗牌：低代码平台逆袭，传统LLM框架日渐式微

量子位· 2025-05-28 07:28

报告+图谱，也让这句"大模型开发生态，是一场现实世界的黑客松"，在现场被开发者一遍遍讨论。是的，在介绍最新的开源生态报告时，蚂蚁开源委员会副主席王旭，就是这么感叹的—— 克雷西发自凹非寺量子位 | 公众号 QbitAI 终于！当前的大模型开发生态，被一份报告、完整全景图谱讲清楚了。就在第十届527蚂蚁技术日上，蚂蚁通过Coding范式、数据、模型部署等角度，对现有开源生态进行了全面完整的大剖析，从数据的视角揭示了大模型开源生态的演进规律，如果你是大模型开发者或者潜在的开发者，几乎研究好这份报告可能就够了。但这还不够，在报告出炉之前的周末，蚂蚁还发布了2025大模型开源生态全景图，涵盖19个技术领域、135个项目，进一步给出了大模型开发生态的参考系。大模型开发生态，是一场现实世界的黑客松。大模型开源生态，为何是一场实时直播的黑客马拉松？在去年的QCon（全球软件开发大会）上的报告和量子位的MEET 2025大会中，蚂蚁对开源社区给出了这样的判断：开源社区的数据可以说既不全面，也不超前于时代，但是，它是跳出公司的一个客观视角。今年的技术日上，蚂蚁针对开源生态又发布了新的报告，以及新的 ...

大模型开发生态

AI开源生态

Artificial Intelligence

Artificial Intelligence

Dify

PyTorch

vLLM

LLM Inference 和 LLM Serving 视角下的 MCP

AI前线· 2025-05-16 07:48

LLM Inference 自从 ChatGPT 问世以后，LLM 相关技术对人工智能技术领域形成了冲击性的影响，许多围绕 LLM 的技术架构的发展也一直在如火如荼的展开，比如 RAG 和 AI-Agent，以及时下比较火爆的 Model Context Protocol (MCP)[1]。在展开之前结合行业现实，笔者认为解释清楚 LLM Inference（LLM 推理）和 LLM Serving（LLM 服务）的概念是十分必要的。事实上，由于行业的快速发展，许多概念和知识点一直在业界混淆不清，比如对于 LLM Inference 和 LLM Serving 两个概念我相信不少人都是相当不清晰的。笔者认为造成这些问题的主要原因之一是在 LLM 的工程实践过程中将其所负责的功能范畴相互交错导致的。简单来说，为了满足业务需求很多 LLM 相关的技术框架不得已将 LLM Inference 和 LLM Serving 的功能集合都实现成在一起，导致功能集合的边界模糊不清。因此，除了从 Inference 和 LLM Serving 的角度去谈 MCP 的发展，解释清楚此两者的概念范畴同样也是本文的主要目的 ...