Workflow
推理
icon
Search documents
大模型高考成绩单出炉,讯飞星火语数外实力位居第一梯队
He Xun Wang· 2025-06-09 09:05
在深度推理的终极考场,AI正以惊人速度逼近人类顶尖学子水平。 当2025年全国高考1335万考生在考场奋笔疾书时,一场特殊的"AI高考"同步拉开帷幕,DeepSeek、字节 豆包、阿里通义千问、腾讯混元、讯飞星火、百度文心等国内第一梯队大模型全部参考。据多家媒体在 语文作文、数学、英语作文三科实测中,DeepSeek成为本年度国产大模型的"高考数学状元",讯飞星火 数学以1分之差位于第二,其中英文作文则在多个评测中,得分第一,而通义千问、豆包等模型也在部 分科目展现出顶尖实力。 这场由多家媒体联合专业教师团队主持的跨模型实测,不仅检验了AI的文本理解、逻辑推理与语言生 成能力,更揭示了国产大模型技术路线的最新格局:在深度推理的赛道上,掀起全民AI浪潮的 DeepSeek依然保有领先优势,全国产算力下70B量级的讯飞星火则凭借精准的算法优化与教育领域深 耕,已超越更大参数规模的对手。 语文作文:53分登顶,破题能力成胜负手 "全国卷一作文难哭考生"登上热搜当天,六大国产模型同步拿到老舍、艾青、穆旦的名句材料。在智通 财经旗下媒体"电厂"的语文作文评测中,面对"沉默与发声"的哲学命题,讯飞星火以《以歌为刃破长夜 ...
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
机器之心· 2025-06-09 08:03
近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推理时「临时学习」一下这 个具体的问题呢?这个看似「离谱」的想法,竟然带来了惊人的效果提升。 试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好? 这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)方法, 把每个输入 prompt 本身当作一份「迷你训练数据」 ,让模型在生成答案前先「学习」理解这个具体问题。 更令人惊讶的是,这个方法 简单到离谱 : Qwen2.5-7B 在 GSM8K 数学推理任务上准确率从 57.54% 飙升至 66.19% ,提升 8.65 个百分点。 DeepSeek-R1-Distill-Llama-70B 在 GPQA Diamond 上达到 68. ...
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-09 04:23
本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈, 首发于「张小珺商业 访谈录」。 张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解 一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大 模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何 才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历 程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型 领域的进步极快,但多模态生成和理解的难度被低估了: • 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; • 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确,数据质 量有限,生成模块往往无法反向影响理解模块等; • 模型 scale 到万亿参数后,在文本生成和知识问答能力增强的同时,推理能力,尤其是数学, ...
外网热议:为什么 DeepSeek 大规模部署成本低,但本地运行昂贵?
程序员的那些事· 2025-06-09 02:14
以下文章来源于MaxAIBox ,作者Max MaxAIBox . MaxAIBox.com 汇集优秀 AI 工具,探索 AI 无限可能 最近刷 HackerNews,看到了这篇引发热议的技术文章。 英文作者工程师小哥 Sean Goedecke 目前在 GitHub 就职。 说明:本文讨论的并非在个人电脑上运行模型,而是假设你拥有所有所需的 GPU 时,如何将模型用于个人用 途(即批量处理与吞吐量之间的权衡)。 为什么 DeepSeek 大规模部署成本低,但本地运行昂贵? 为何 DeepSeek-V3 模型在大规模部署时看似快速且成本低廉,然而在本地运行却既缓慢又昂贵?为何部分 AI 模型响应迟缓,但一旦启动就运转迅速? AI 推理服务提供商常提及吞吐量与延迟之间的根本性权衡:对于任何给定模型,要么以高吞吐量、高延迟的 方式提供服务,要么以低吞吐量、低延迟的方式运行。 实际上,某些模型天生对 GPU 利用率低,以至于在实践中,为了获得可行的吞吐量,必须以高延迟的方式提 供服务(例如 DeepSeek-V3)。 3、 该令牌大小的矩阵进入队列; 4、 GPU 服务器从队列中提取批次(例如 128 个),将它们 ...
博通公司20250606
2025-06-09 01:42
博通公司 20250606 43%。 具体来看,Broadcom 公司的半导体解决方案部门在第二季度表现如何? 半导体解决方案部门在 2025 财年第二季度收入达到 84 亿美元,同比增长 17%,占总收入的 56%。其中,AI 半导体收入超过 85 亿美元,同比增长 20%,连续 15 个季度保持强劲增长势头。推动这一增长的关键因素包括定制 AI 加速器和 AI 网络业务,其中基于以太网的 AI 网络表现尤为强劲,占 AI 收入 的 40%。Tomahawk 交换机、CherryRouter 路由器和 Nis 网络产品组合是 成功的重要驱动力。此外,本周发布的新一代 Tomahawk 6 交换机进一步巩 固了这一势头。 Broadcom 公司的基础设施软件业务在本季度有何表现? 摘要 Broadcom 2025 财年第二季度业绩亮眼,合并调整后 EBITDA 达 100 亿美元,同比增长 35%,毛利率高达 79.4%。营业收入 98 亿美元,同 比增长 37%,营业利润率 65%,自由现金流 64 亿美元,占收入的 43%。 半导体解决方案部门收入 84 亿美元,同比增长 17%,占总收入 56%。AI ...
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
Bei Ke Cai Jing· 2025-06-09 01:24
6月8日下午,2025年高考英语科目考试结束。在今年高考英语北京卷的作文题目中,李华又一次成为"主角"。 与此同时,这场"语言能力大考"也成为AI大模型的试金石——从精准审题到地道表达,从逻辑连贯到文化适配,大语言模型能否作为"李华"完成高考英语作 文题目的独特要求?在各个大模型均已具备"深度思考"模式的当下,"AI考生"能拿到多少分?对此,新京报贝壳财经对国内外主流大语言模型进行了测评。 本次测评选择2025年高考英语北京卷作文题目,测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、腾讯混元T1、讯飞星火X1、百度文心X1六款深度 推理模型产品,并邀请北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文打分并作点 评。 本着客观公正和"盲评"原则,韩宪昌老师和赵文嘉老师给出了专业评分。本次参赛的六名大模型"AI考生"得分揭晓后由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。 具体来看,2025高考英语北京卷作文题目的要求为: 假设你是红星中学高三学 ...
RTX5090目前的市场行情
傅里叶的猫· 2025-06-08 12:28
自2025年1月NVIDIA RTX5090发布以来,大家就一直都很关注这个显卡,我们之前建了个5090的 群,一直到现在每天都是挺热闹。但在过去的几个月时间里,RTX5090也出现了一系列的问题,这 篇文章我们从售价、租金、算力、功耗、性能、发热和组网七个方面,结合实际案例与数据,深入 探讨RTX5090目前的市场行情,本文的数据参考自"小易AI袁亮"。 售价从高位回落 功耗 单卡租赁价格:约1万元/年。 整机配置价格:一台配备8张RTX5090的整机约为30万元。 RTX5090的功耗是其应用中的一大痛点。额定功耗:575W,峰值功耗:瞬间可高达900W,8卡整机 功耗:约6kW。 RTX5090发布时,市场对其寄予厚望,预期售价高达4万元以上。然而,仅4个月后,价格已跌至2万 元出头,部分电商平台(如京东)上的同德品牌RTX5090甚至低至2.3万元。价格快速下滑的原因主 要有以下几点: 首先,市场传言RTX5090存在芯片过热问题,影响了消费者信心。其次,早期关于多卡组网可能出 现"锁卡"或性能瓶颈的传闻,降低了企业采购意愿。此外,显卡厂商在发布初期大幅抬价,导致市 场需求不及预期。最后,上一代旗舰R ...
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 04:51
本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈。 张祥雨专注于多模态领域,他提出了 DreamLLM 多模态大模型框架,这是业内最早的图文生成理解 一体化的多模态大模型架构之一,基于这个框架,阶跃星辰发布了中国首个千亿参数原生多模态大 模型 Step-1V。此外,他的学术影响力相当突出,论文总引用量已经超过了 37 万次。 一直以来,业界都相当期待一个理解、生成一体化的多模态,但直到今天这个模型还没出现,如何 才能达到多模态领域的 GPT-4 时刻?这一期对谈中,祥雨结合自己在多模态领域的研究和实践历 程,从纯粹的技术视角下分享了自己对多模态领域关键问题的全新思考,在他看来,虽然语言模型 领域的进步极快,但多模态生成和理解的难度被低估了: • 接下来 2-3 年,多模态领域会有两个 GPT-4 时刻:多模态推理和自主学习; • o1 范式的技术本质在于激发出 Meta CoT 思维链:允许模型在关键节点反悔、重试、选择不同分 支,使推理过程从单线变为图状结构。 目录 01 研究主线: 重新回归大模型 • 多模态生成理解一体化难以实现的原因在于,语言对视觉的控制能力弱,图文对齐不精确, ...