模型推理

Search documents
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
Di Yi Cai Jing· 2025-05-29 14:10
报告显示此前 R1模型幻觉率在21%左右。 在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强 化、幻觉改善和创意写作更好等。 值得一提的是,DeepSeek提到,新版DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻 觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。 所谓幻觉即大模型的"胡说八道",此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性 幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。 doubao-1.5-pr 在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已 接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。 gemini-2.5-pro-p1 gemini-2.5-flash-t ...
AI算力需求涌向模型推理,国产芯片站上竞技台了
Di Yi Cai Jing· 2025-05-28 07:22
2024年中国数据中心加速卡市场中,34.6%是国产算力,市场研究机构预计今年上半年国产算力占比应该会超四成。 刚刚结束的COMPUTEX电脑展上,英伟达CEO黄仁勋笑着对听众说,"你(芯片)买得越多,赚得越多。"引来一阵笑声。 这句话的背景是,全球科技厂商在AI热潮下继续重金投入建设数据中心或算力中心。黄仁勋在演示文档上写着,英伟达正在驱动全球万亿美元级别的企业 AI IT投资。 数据中心建设热潮下,现在看来,AI算力需求的变化与年初一些业内人士预计的不太一样。DeepSeek对训练算力资源的节约,并未让整体算力需求减少。 不过,还有一个变化发生了,随着DeepSeek推动AI走向应用,用于推理的AI芯片占比正在升高。 市场研究机构IDC中国副总裁周震刚告诉第一财经记者,2024年中国数据中心加速卡中已有半数以上是推理卡,DeepSeek出现后,今年推理芯片占比预计还 会增加。 这种芯片结构变化,可能会对AI芯片市场造成深远影响,特别是在中国市场。推理环节对AI芯片性能等的要求较低,国产AI芯片也可以使用,在英伟达出 口受到限制的情况下,可能促成国内AI芯片的组成发生变化。 周震刚透露,去年国内数据中心加速 ...
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 04:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的 史上首个"AI科学家" 之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型 解决数独问题能力的排行榜 。 问题集是该公司推出的 全新基准Sudoku-Bench ,包含了 从简单的4x4到复杂的9x9现代数独 问题,旨在考验大模型 创造性推理能力 。 榜单显示,大模型不仅总体正确率只有 15% ,在9×9的现代数独中,即使是高性能模型 o3 Mini High ,正确率也只有2.9%。 | 3 | oluvuu-pollull lesauci kvalu | | --- | --- | | Model | Puzzles Solved | | O3 Mini High | 14.0% | | Gemini 2.5 Pro | 11.0% | | Qwen 3 235B A22B | 8.0% | | Qwen 3 30B A3B | 7.0% | | Grok 3 Mini | 6.0% | ...
清华学霸与AI比做高考压轴题,谁会赢?
第一财经· 2025-05-27 15:21
2025.05. 27 对于AI的回答,一位姚班学生认为AI做题思路与其一致,步骤更加清晰,相较于传统的答案更有利于 学生理解解题思路。 可以对比的是,去年高考结束后,有机构让包括GPT-4o、豆包、文心4.0在内的9家大模型尝试河南 的高考卷,并以河南的分数线评判,最终有4家大模型在文科高考中达到河南的一本线,但没有大模 型的理科分数达到河南省一本线。 有道相关负责人对记者表示,今年以来AI进展迅速,尤其是DeepSeek-R1带来了推理模型大爆发, 而大模型推理能力和交互能力在教育场景的适配性非常高,能够逐步解决个性化教学和答疑的需求, 而且提供的指导和答疑质量越来越高,所以选择与高考顶尖学霸进行同题测试,用一种直接明了的方 式向大众展示AI大模型能力的提升。 在题型选择上,主要基于难度和认知度的考量,上述负责人表示,"因为大家对高考的难度都是有概 念的,尤其是这种高难度的理科压轴题,容易引起关注,也能直观展示效果。" 上述人士透露,前段时间还做了北京最新高考二模(题库数据里没有的新题)的挑战。AI答题后由老 师进行批改,分数为697分(总分750分),达到"清北"水平。"毕竟去年AI集体做24年高考题的 ...
红帽宣布推出llm-d社区,NVIDIA、Google Cloud为创始贡献者
Xin Lang Ke Ji· 2025-05-27 03:42
新浪科技讯 5月27日上午消息,全球开源解决方案提供商红帽公司近日宣布启动新开源项目llm-d,以满 足生成式AI大规模推理需求。据悉,该项目与创始贡献者CoreWeave、Google Cloud、IBM Research和 NVIDIA合作打造,能够利用突破性的大规模生成式AI推理技术,让大语言模型(LLM)推理云能够满 足最苛刻的生产服务级目标(SLO)。 NVIDIA工程AI框架副总裁Ujval Kapasi表示:"llm-d项目是对开源AI生态系统的重要补充,体现了 NVIDIA对合作推动生成式AI创新的支持。可扩展、高性能地推理是下一波生成式AI和代理式AI的关 键。我们正在与红帽和其他支持合作伙伴合作,促进llm-d社区的参与和行业采用,利用NIXL等 NVIDIA Dynamo创新帮助加速llm-d的发展。"(文猛) 责任编辑:杨赐 红帽及其行业合作伙伴正通过llm-d应对这一挑战,将先进的推理能力集成到现有的企业IT基础设施 中。据悉,该统一平台使IT团队能够满足关键业务工作负载的各种服务需求,同时部署创新技术以最大 限度地提高效率,并显著降低与高性能AI加速器相关的总体拥有成本(TCO)。 ...
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 11:47
HUAWEI X HUXIU AMLA × 融合算子 × SMTurbo 让大模型推理速度与能效双重革命 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.5 :昇腾亲和 它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与 复用机制,让芯片处理海量数据时如虎添翼。 而昇腾此次开源的三大技术,正是算子优化的 "终极形态" ...
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心· 2025-05-23 04:17
机器之心发布 机器之心编辑部 现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着 一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。 因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅 是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。 在这一背景下,华为团队和昨天一样(参考: 帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈 ),用数学补物理,给出了一份深度 融合软硬件的系统性方案! 他们基于昇腾算力,正式发布了三项重要的硬件亲和算子技术研究,带来了大模型推理速度与能效的双重革命 。具体包括如下: 可以看到,华为团队着力通过对大模型推理中关键算子的重构优化,实现能效、多卡协同和速度三大维度的全面突破。 作为 AI 大模型执行计算的「原子级工具」,算子如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不 ...
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 11:41
HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.4 :通信优化 01 大模型的推理, 就只是算力吗? 大语言模型(Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至 整个社会的焦点。 根据Scaling law,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 10:25
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 由上可以看出, 集合通信操作是大模型推理中多个计算节点协作的「桥梁」,不同的并行策略(TP、DP、EP)通过这些操作实现高效的数据交互和计算,从而 加速大模型的推理过程 。 通信:Scaling law 头顶的 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 04:13
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 有一些常用集合通信操作,比如 全量规约(AllReduce) 可以想象成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到 一个地方,进行求和、求平均值等计算。在大模型里,多个计算 ...