量子位

Search documents
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
量子位· 2025-06-13 07:05
西风 发自 凹非寺 量子位 | 公众号 QbitAI 仅用不到 1200行代码,实现最小化且完全可读的vLLM ! Dee pSeek研究 员俞星凯 搞了个开源项目引得大伙拍手叫绝。 项目名为 Nano-vLLM ( 纳米 级-vLLM) ,有三大特点: 下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况。 在RTX 4070硬件、Qwen3-0.6B模型环境中,设置了256个序列的总请求数,输入和输出长度均在100-1024个 token间随机采样。 测试结果be like: | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | vLLM略微领先。 二者输出token量相同,vLLM耗时98.95秒、吞吐量为1353.86 tokens/s,Nano-vLLM耗时101.90秒、吞吐量131 ...
韦东奕论文登数学顶刊,将散焦方程的爆破性研究扩展至d≥4
量子位· 2025-06-13 07:05
一水 发自 凹非寺 量子位 | 公众号 QbitAI 字都认识,但是看不懂一点(doge)。 实际上,据清华大学丘成桐数学科学中心网站介绍,韦东奕还在今年5月以主讲人的身份做了这篇论文的报告。 韦东奕论文再登数学顶刊! 就在备受关注之际,韦神本韦和另两位北大学者章志飞、邵锋合作的一篇论文已发表于数学界顶级期刊《Forum of Mathematics, Pi(数学 论坛,π) 》。 论文题目为《On blow-up for the supercritical defocusing nonlinear wave equation(超临界散焦非线性波动方程的爆破现象研究)》, 通俗来说就是研究某些方程的解在什么条件下会"爆炸"失控。 而经过一系列论证,他们最终发现对于d=4且p≥29,以及d≥5且p≥17的情况,存在一个在有限时间内爆破的光滑复值解。 不清楚具体研究内容不要紧,重要的是 这一成果不仅填补了相关空白,而且其证明方法绕过了传统方法中奇点处理的难点,理论上可推广到 其他非线性偏微分方程的爆破研究。 网友们的反应一致be like: 下面具体来看这项研究讲了啥? 将散焦方程的爆破性研究扩展至d≥4 从论文 ...
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 05:07
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙,机器人进厂打工原视频流出,整整60分钟,完全未剪辑。 前几天Figure 02晒1分钟物流分拣视频,网友们完全没看够啊。 于是Figure创始人立马 60分钟 进厂打工vlog (未删减版) 奉上。 可灵活处理更多类型包裹,更接近人类水平的硬件运动,仔细看机器人在工作时,还会实时查看新数据来观察学习。 可以很轻松地从一堆非结构化的杂乱对象中抽出包裹,并在推走一个包裹的同时,伸手去取另外一个包裹。 要知道,3个月前它还是这样的: 短时间内整体性能飞速提升,到底发生了什么? 刚刚官方同步释出的完整技术解读文档来答疑解惑了。 受益于高质量演示数据集的扩展,以及对Figure自研的Helix神经网络的 视觉电机策略 (visuo-motor policy) 进行架构改进,机器人在高 速工作负载下的稳定性得以长足发展。 另外通过启动状态感知和力感应,在不牺牲效率的情况下还全面增强了机器人的稳健性和适应性。 更多详细技术细节如下。 数据扩展 将前后两次视频对比,物流任务明显扩展至更多形态的包裹,除了标准的硬纸盒,现在还可以处理聚乙烯袋、信封和其它 可折叠、皱缩 ...
智能交互终于步入真·人机交互时代了,这很讯飞
量子位· 2025-06-13 05:07
白交 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 苹果放鸽子的更新,国产AI率先实现了。 背上一个看起来平平无奇、体积也没什么存在感的包,宇树机器人就声情并茂地开口说话。 社交i人戴上AI眼镜,就可以轻松跟外国人social,看似不经意就加上微信好友;戴着它看展的话,看到不懂的展品还可以不懂装懂一下 (bushi。 你对智能硬件的想象,是不是还停留在"能听懂你说话"的阶段?这种"你说一句、它答一句"的交互,本质上还是命令式的、静态的。场景一变 化,语气一模糊,体验就崩了。 但现在,这些都开始变了。 万物皆可交互,万物皆可互联开始具象化。 你甚至可以让巴斯光年、变形金刚在你面前唱歌跳舞。 手里的一支签字笔、一块贴牌,也可以化身会议神器。 在 科大讯飞最新发布会上,我看到了智能硬件的新范式: 设备不再是限制,产品与服务正在被AI革新 ,交互重构整个硬件产业生态。 AIUI,一站式搞定人机交互开发 正如此次发布会所展现, 一个最大的感知就是 现在智能硬件从基础交互迈向深度智能协作,从而在应用场景里深度赋能。 从技术角度来说,人机交互正在变成一个复杂的系统性工程,而不再是语音识别、模型系统和语音合成的简单组 ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 05:07
KRIS-Bench团队 投稿 量子位 | 公众号 QbitAI 人类在学习新知识时,总是遵循从"记忆事实"到"理解概念"再到"掌握技能"的认知路径。 AI是否也建立了"先记住单词,再理解原理,最后练习应用"的这种知识结构呢? 测评一下就知道了! 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了 KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark)。 首创地 从知识类型的视角 ,对图像编辑模型的推理能力进行系统化、精细化的评测。 借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。 基于认知分层的三大知识范畴 KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从 "物体计数变化"到"化学反应预测 ...
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 05:07
同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。 来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的 SafeKey 框架,成功在不影响模型核心 能力的前提下,显著增强了其安全稳健性。 SafeKey团队 投稿 量子位 | 公众号 QbitAI 大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的"越 狱"攻击时,往往显得捉襟见肘,泛化能力有限。 发现:大模型信息"越狱"的两大核心 SafeKey团队在探究模型为何会"越狱"成功时,获得了两大核心发现: 1."关键句"现象(The "Key Sentence") 如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。 而紧随其后的 第一个句子 ,往往直接决定了整个回答的"安全调性"。 研究团队将其命名为" 关键句 "(Key Sentence):一个安全的"顿悟时刻"(Aha-moment)能否在此时被触发, ...
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 02:25
西风 发自 凹非寺 量子位 | 公众号 QbitAI 该测试引来 OpenAI前A GI Readine ss团队负责人Miles Brundage 的转发关注。 OpenAI"最新最强版"推理模型 o3-pro ,实际推理能力到底有多强? 全球 首位全职提 示工程师Riley Go odside 来给它上难度: 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时, 每个单词最后一个字母连起来看,也能对应这首歌名 。 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测, o3只能做对个大概 ,通常只能把最后几个字母凑对。 虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。 PS: 苹果前几天发了个新研究 ,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的"模式匹配",所谓思 考只是一种假象。 除了网友实测外,各大评测榜单已陆续同步更新排名。 总结来看,和官方给的测试结果略有不同。 官方测评中,o3-pro超越o3、o1-pro,成为当前 ...
让机器人学会系统2慢思考,叠衣服倒咖啡等不在话下 | 上海交大&智元机器人
量子位· 2025-06-13 02:25
Hume团队 投稿 量子位 | 公众号 QbitAI 机器人也能慢思考了! 上海交通大学携手智元机器人等团队推出了Hume—— 融合系统2(System-2)慢思考的双系统VLA模型 。通过动作价值 引导的动作采样与双系统级联动作去噪,实现深度推理与实时控制的完美结合。 在涵盖长时序规划、复杂柔性物体操作等多种任务场景的广泛实验中,Hume在多种机器人平台上均展露出了惊艳表现,显 著超越当前的最先进模型。 比如像 折叠短裤 、倒咖啡等操作,Hume加持下机器人也能得心应手。在各种复杂场景中达到了91%的平均成功率。 VLA模型缺失的慢思考能力 视觉-语言-动作(VLA)模型在构建通用机器人策略方面取得了显著进展,OpenVLA、π0、GR00T等最新研究已在不同任 务中展示了较强的适应能力。 然而当前的VLA模型大多依赖于直觉反应模式,即根据当前环境"本能地"预测动作,这使得它们在解决复杂、长时序的决策 任务时表现不佳。 与之相对的是,系统2慢思考已经通过测试时计算大幅提升了大语言模型(LLM)解决复杂逻辑推理问题的能力。但将这种 思考范式应用在需要与物理世界交互的机器人上仍是一个巨大挑战。 首先, 如何让V ...
超越英伟达B200!AMD最强AI芯:1.6倍大内存、大模型推理快30%,奥特曼都来站台
量子位· 2025-06-13 02:25
相比前代的MI300X,MI350系列的 算力提升了4倍,推理速度快了35倍 。 MI350系列也是叫板英伟达B200, 内存是B200的1.6倍,训练推理速度相当或更快 。 并且由于芯片功耗低于英伟达,在MI355X上 每花费1美元,可以比B200多跑40%的tokens 。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI AMD大招逆袭,最强AI芯片号称大模型推理比英伟达B200快30%! CEO苏姿丰与OpenAI奥特曼共同登台发布。 这次AMD发布了 MI350X和MI355X 两款GPU,采用3nm工艺,包含1850亿晶体管,配备HBM3E内存。 同时,AMD还预告明年将会发 MI400 系列,并且奥特曼也来给苏妈站台,透露OpenAI参与了MI400系列的联合研发。 大模型运行更快,MI350系列叫板英伟达 MI350X和MI355X在核心设计上是相同的,二者的区别是针对不同的散热方式设计,前者采用风冷,后者则和B200一样采用了更先进的液 冷。 它们都基于 第四代Instinct架构 (CDNA 4),并配备 288GB的HBM3E内存和8TB每秒的内存带宽 ,这一容量是英伟达GB200 ...
黄仁勋发布量子计算专用CUDA!预言量子计算机几年内应用,但现在还离不开GB200
量子位· 2025-06-12 09:23
克雷西 假装发自 巴黎 量子位 | 公众号 QbitAI "量子计算正在到达一个拐点。" 在GTC巴黎的演讲中,英伟达CEO黄仁勋对量子计算给出了新的论断。 这次,老黄一改此前"实用量子计算机还要20年"的观点,预言量子计算机的实际应用在几年内就能实现。 并且,未来的逻辑量子比特将具备更好的错误纠正能力、更强的鲁棒性、更高的性能、更强的弹性和可扩展性。 所以老黄表示,在未来几年内,量子计算和量子经典计算将能解决一些"有趣"的问题。 老黄预计,在未来几年,或者至少在下一代超级计算机中,每一个都将配备一个QPU(量子处理单元),并与GPU连接。 在这种协同架构中,GPU将承担预处理、控制、计算密集型错误纠正以及后处理等关键任务。 但他真正想说的,是 当前量子计算机开发阶段,还离不开英伟达芯片做模拟计算,特别是GB200 。 演讲中,老黄带来了英伟达最新推出的量子-经典加速超算平台—— CUDA-Q 。 CUDA-Q是英伟达CUDA的扩展,可以在经典计算机上进行模拟量子计算,或者为真·量子计算机提供辅助。 CUDA-Q已在Grace Blackwell上可用,通过英伟达的GB200 NVL72超算,CUDA-Q可以 ...