Workflow
推理模型
icon
Search documents
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
Bei Ke Cai Jing· 2025-06-09 01:24
6月8日下午,2025年高考英语科目考试结束。在今年高考英语北京卷的作文题目中,李华又一次成为"主角"。 与此同时,这场"语言能力大考"也成为AI大模型的试金石——从精准审题到地道表达,从逻辑连贯到文化适配,大语言模型能否作为"李华"完成高考英语作 文题目的独特要求?在各个大模型均已具备"深度思考"模式的当下,"AI考生"能拿到多少分?对此,新京报贝壳财经对国内外主流大语言模型进行了测评。 本次测评选择2025年高考英语北京卷作文题目,测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、腾讯混元T1、讯飞星火X1、百度文心X1六款深度 推理模型产品,并邀请北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文打分并作点 评。 本着客观公正和"盲评"原则,韩宪昌老师和赵文嘉老师给出了专业评分。本次参赛的六名大模型"AI考生"得分揭晓后由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。 具体来看,2025高考英语北京卷作文题目的要求为: 假设你是红星中学高三学 ...
推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源
量子位· 2025-06-03 06:21
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI DeepSeek-R1、OpenAI o1等推理模型大放异彩。但随着能力增强,一个副作用越来越明显—— 这不光影响效率,更可能导致错误 —— 在长链式思考中,每一步的小误差都会累积放大 ,最后可能想着想着就跑偏了。 于是,一个关键问题摆在了现实面前: 如何让模型既然会思考推理,也懂得"适可而止",知道什么时候该停下来? 针对于此,来自浙江大学、天津大学和MSRA的研究团队提出了一个新方法, Self-Braking Tuning (SBT) 。 它是一种轻量级、通用的调优机制,可无缝集成到现有大模型中。其主要目的是让模型不再一味求"多想",而是在最短路径上到达正确答案。 其核心设计包括刹车信号机制、多任务微调,且无需外部模块或改动推理流程。 其中,刹车信号机制是在训练阶段引入一类特殊的信号,指示"当前信息已经足够完成任务",模型据此学习何时应终止推理。 多任务微调则指挥模型同时学习如何解题&何时停步,兼顾准确性与效率。 它们开始想太多了 。 从奥数题到程序逻辑,能解的题越来越多、推理链条越来越长。 也就是说,模型在完成推理任务时, 常常出现过度 ...
英伟达20250529
2025-05-29 15:25
英伟达 20250529 摘要 英伟达一季度确认 4.6 亿美元 H20 收入,但因美国出口管制,预计损失 25 亿美元收入,并计提 46.45 亿美元库存和采购承诺减值,对中国 AI 加速器市场准入受限将产生重大不利影响。 Blackwell 产品线增长迅速,贡献近 70%的数据中心计算收入, GB200 系列架构变革支持数据中心规模工作负载,实现最低每令牌推理 成本,主要云服务提供商开始采样 GB300 系统。 AI 工厂部署加速,本季度近 100 个视频驱动 AI 工厂运行,GPU 使用量 翻倍,各行业领导者战略性部署关键主权云项目,如 AT&T、比亚迪等。 游戏业务创下 38 亿美元新高,同比增长 42%,AI PC 笔记本产品线增 加,推出 G Force RTX 5,060 系列 GPU,任天堂 Switch 2 采用 NVIDIA 神经渲染及 AI 技术。 网络业务收入同比增长 64%至 50 亿美元,Spectrum X 产品线年收入 超 80 亿美元,新增 Google Cloud 和 Meta 为客户,推出 Spectrum X 和 Quantum X 硅光子交换机产品。 中国数据中心收入 ...
杭州致成电子科技有限公司:混合推理模型引领电力计量诊断新范式
Jin Tou Wang· 2025-05-29 00:49
这一技术突破直接推动国家电网台区线损治理水平跃升——应用该平台的区域,计量设备故障率平均降 低35%,线损治理成本下降28%,为电网企业年节省运维成本超亿元。 市场版图:从区域深耕到全国布局 截至2024年,致成电子计量诊断平台已覆盖浙江、北京、上海、四川等13个省份,累计服务用户超2亿 户,占全国智能电表用户总数的34.33%。其中,浙江作为核心市场,服务规模达数千万户,占全省智 能电表用户的近四成,成为区域数字化标杆案例。值得关注的是,致成电子在西南、西北等能源富集地 区的市场渗透率快速提升。在四川,平台深度融入当地"数字电网"建设,助力国网四川电力实现全省低 压台区拓扑自动绘制与故障快速响应;在甘肃、宁夏等新能源高占比省份,平台通过融合光伏出力数 据,创新性解决分布式能源计量偏差难题,相关技术方案被纳入《国家电网新能源计量技术白皮书》。 在国家"双碳"战略与能源数字化转型的浪潮中,电力计量设备的精准诊断与智能化运维成为电网企业降 本增效的核心命题。作为国内领先的能源数字化解决方案提供商,杭州致成电子科技有限公司凭借自主 研发的基于混合推理模型的电力计量设备故障诊断平台,在细分领域实现跨越式发展。截至20 ...
港科大Apple新研究:Tokens使用量减少,模型推理还更强了
量子位· 2025-05-28 04:22
Laser团队 投稿 量子位 | 公众号 QbitAI 1+1等于几? 这一研究也在引起了讨论: 现在的大推理模型(LRMs)已经展现出了非凡的推理能力。但是面对这样最简单的数学问题,现有的LRMs仍需要花费1400+的tokens来思 考。 那么有办法让LRMs在推理思考时更快更强吗? 来自港科大、港城、滑铁卢大学和Apple的研究人员,最近提出了 Laser系列新方法 ,实现了更好的模型效率和准确率平衡,做到了两者的 共同显著提升。 经过Laser和它的进阶方法Laser-D、Laser-DE训练后的模型,相较于训练前模型或者其他方法训练的模型,在准确率(Accuracy)和 Tokens使用效率(Efficiency)上,同时取得了显著的提升。 例如在知名复杂数学推理基准AIME24上,Laser-D和Laser-DE方法能够让模型在减少Tokens使用量 63% 的情况下,还继续提升 6.1 的性 能。 同时,研究人员还发现,经过训练的模型的思考过程里,冗余的"self-reflection"的比例大大降低,呈现出了一种更加健康的思考模式。 那么,Laser是如何让大模型推理又快又好的呢? 三大创新实 ...
Google搜索转型,Perplexity入不敷出,AI搜索还是个好赛道吗?
Founder Park· 2025-05-27 12:20
在前不久的 Google I/O 开发者大会上,Google 宣布上线由 Gemini 驱动的高级 AI 搜索模式 AI Mode,可以应对复杂问题,支持追问。与之前的 AI Overviews 对 AI 搜索的浅尝辄止不同,Google 终于不再死抱着"关键词+链接列表",开始拥抱" 自然语言交互+结构化答案 "的"新"范式了。 Google AI Mode|图片来源:腾讯科技 作为上一代搜索引擎的霸主,2024 年,Google 的搜索业务贡献了 1750 亿美元,占总收入的一半以上,而转型 AI 搜索势必会对这部分收入带来冲击,这 也是 Google 一直在 AI 搜索方向犹犹豫豫的原因。 而让 Google 决心转型的则是"AI 搜索带来的危机感",研究机构伯恩斯坦认为,如果算上 AI ChatBot 的话,Google 搜索的市占率可能已经从 90%+ 降至 65%-70% 了,再不入局,搜索领域的霸主位置很可能不保。 以下文章来源于白鲸出海 ,作者白鲸小编 白鲸出海 . 白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包括应用、游戏、电商、区块链、智能手机及 ...
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 03:13
选自Nathan Lambert博客 机器之心编译 作者: Nathan Lambert 本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进 而启发构建推理模型的新思路。 随着 DeepSeek R1 的持续爆火,推理和强化学习已经成为 AI 领域的热门词汇。 短短几个月的时间,我们已经见证了太多的推理大模型,AI 更新迭代速度似乎已经快进到了以天为单位。 但在众多研究成果中找到值得关注的内容并不容易。 这有一篇价值非常高的博客,可以帮你梳理最近关于推理模型的研究,重点关注 DeepSeek R1 里用到的 GRPO 及后续的改进算法,非常值得一读。作者是来自 AI2 的 ML 科学家 Nathan Lambert,他博士毕业于 UC 伯克利,曾在 HuggingFace 领导 RLHF 团队。 博客地址:https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo 文章列举了最近比较火的论文和大模型,包括: 此外,作 ...
Google不革自己的命,AI搜索们也已经凉凉了?
Hu Xiu· 2025-05-23 03:23
在刚刚结束的Google I/O开发者大会中,Google宣布上线由Gemini驱动的高级AI搜索模式AI Mode,可以应对复杂问题,支持追问。与之前的AI Overviews 对AI搜索的浅尝辄止不同,Google终于不再死抱着"关键词+链接列表",开始拥抱"自然语言交互+结构化答案"的"新"范式了。 作为上一代搜索引擎的霸主,2024年,Google的搜索业务贡献了1750亿美元,占总收入的一半以上,而转型AI搜索势必会对这部分收入带来冲击,这也是 Google一直在AI搜索方向犹犹豫豫的原因。 而让Google决心转型的则是"AI搜索带来的危机感",研究机构伯恩斯坦认为,如果算上AI ChatBot的话,Google搜索的市占率可能已经从90%+降至65%— 70%了,再不入局,搜索领域的霸主位置很可能不保。 但换个角度,Google的入局,并非指向AI搜索领域的风生水起,而是对Chatbot吞噬流量的应对。在AI对话(既包括ChatGPT、也包括加入了Chatbot的各 类工具例如AI笔记产品ima、又如夸克网盘)吃掉一切流量面前,Google尚且决绝转身,AI搜索的新玩家们日子更不好过。 4月11 ...