Workflow
推理
icon
Search documents
清华学霸与AI比做高考压轴题,谁会赢?
第一财经· 2025-05-27 15:21
2025.05. 27 对于AI的回答,一位姚班学生认为AI做题思路与其一致,步骤更加清晰,相较于传统的答案更有利于 学生理解解题思路。 可以对比的是,去年高考结束后,有机构让包括GPT-4o、豆包、文心4.0在内的9家大模型尝试河南 的高考卷,并以河南的分数线评判,最终有4家大模型在文科高考中达到河南的一本线,但没有大模 型的理科分数达到河南省一本线。 有道相关负责人对记者表示,今年以来AI进展迅速,尤其是DeepSeek-R1带来了推理模型大爆发, 而大模型推理能力和交互能力在教育场景的适配性非常高,能够逐步解决个性化教学和答疑的需求, 而且提供的指导和答疑质量越来越高,所以选择与高考顶尖学霸进行同题测试,用一种直接明了的方 式向大众展示AI大模型能力的提升。 在题型选择上,主要基于难度和认知度的考量,上述负责人表示,"因为大家对高考的难度都是有概 念的,尤其是这种高难度的理科压轴题,容易引起关注,也能直观展示效果。" 上述人士透露,前段时间还做了北京最新高考二模(题库数据里没有的新题)的挑战。AI答题后由老 师进行批改,分数为697分(总分750分),达到"清北"水平。"毕竟去年AI集体做24年高考题的 ...
Morgan Stanley--出口管制正在缩小中国的HBM差距
傅里叶的猫· 2025-05-27 14:52
Core Insights - Morgan Stanley's report indicates that due to U.S. export controls, China's HBM technology gap is narrowing, with Changxin Storage (CXMT) aiming to produce HBM3/3E by 2027 [1][2]. Group 1: HBM Technology Development - China currently lags 3-4 years behind global leaders in HBM3 technology, but this gap is expected to close due to advancements in AI chip production capabilities [2][3]. - The DRAM technology gap between CXMT and market leaders has decreased from 5 years to 3 years, thanks to significant progress in DRAM technology [2][3]. - The shift towards lower-cost AI inference solutions may enhance China's competitiveness in the HBM and high-end DRAM markets [3][4]. Group 2: Market Dynamics and Competitors - China's semiconductor ecosystem is becoming more competitive, with local solutions emerging across various segments, including chips, substrates, and assembly [4][5]. - Geopolitical tensions are driving the Chinese tech industry to prioritize local components, increasing the market share of Chinese suppliers [5][6]. - By 2027, approximately 37% of wafer manufacturing capacity is expected to be concentrated in China, with notable advancements in advanced memory nodes [5][6]. Group 3: Changxin Storage (CXMT) Updates - CXMT is progressing towards HBM production, with plans to start small-scale production of HBM2 samples by mid-2025 and mass production of HBM3 by 2026 [14][16]. - The company aims to increase its HBM capacity to approximately 100,000 wafers per month by the end of 2026, expanding to 400,000 wafers per month by the end of 2028 [16][19]. - CXMT's DDR5 production is currently at a 3-year lag behind leading competitors, but it is actively working to close this gap [18][19]. Group 4: Hybrid Bonding Technology - China leads in hybrid bonding patents, which are crucial for the future of HBM technology, with significant advancements made by companies like Yangtze Memory Technologies (YMTC) [20][27]. - Hybrid bonding technology is expected to enhance the performance and yield of HBM products, with major manufacturers considering its implementation in future generations [27][28]. Group 5: GPU Market and AI Inference - The introduction of alternative GPU products, such as NVIDIA's downgraded H20 GPU, is expected to impact the HBM market significantly, with potential revenue implications of approximately $806 million [9][12]. - The Chinese GPU market for AI inference is projected to grow at a CAGR of about 10% from 2023 to 2027, driven by increased adoption of workstation solutions [12][13].
Google搜索转型,Perplexity入不敷出,AI搜索还是个好赛道吗?
Founder Park· 2025-05-27 12:20
在前不久的 Google I/O 开发者大会上,Google 宣布上线由 Gemini 驱动的高级 AI 搜索模式 AI Mode,可以应对复杂问题,支持追问。与之前的 AI Overviews 对 AI 搜索的浅尝辄止不同,Google 终于不再死抱着"关键词+链接列表",开始拥抱" 自然语言交互+结构化答案 "的"新"范式了。 Google AI Mode|图片来源:腾讯科技 作为上一代搜索引擎的霸主,2024 年,Google 的搜索业务贡献了 1750 亿美元,占总收入的一半以上,而转型 AI 搜索势必会对这部分收入带来冲击,这 也是 Google 一直在 AI 搜索方向犹犹豫豫的原因。 而让 Google 决心转型的则是"AI 搜索带来的危机感",研究机构伯恩斯坦认为,如果算上 AI ChatBot 的话,Google 搜索的市占率可能已经从 90%+ 降至 65%-70% 了,再不入局,搜索领域的霸主位置很可能不保。 以下文章来源于白鲸出海 ,作者白鲸小编 白鲸出海 . 白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包括应用、游戏、电商、区块链、智能手机及 ...
红帽宣布推出llm-d社区,NVIDIA、Google Cloud为创始贡献者
Xin Lang Ke Ji· 2025-05-27 03:42
Group 1 - Red Hat has launched a new open-source project called llm-d to meet the large-scale inference demands of generative AI, collaborating with CoreWeave, Google Cloud, IBM Research, and NVIDIA [1][3] - According to Gartner, by 2028, over 80% of data center workload accelerators will be deployed specifically for inference rather than training, indicating a shift in resource allocation [3] - The llm-d project aims to integrate advanced inference capabilities into existing enterprise IT infrastructure, addressing the challenges posed by increasing resource demands and potential bottlenecks in AI innovation [3] Group 2 - The llm-d platform allows IT teams to meet various service demands for critical business workloads while maximizing efficiency and significantly reducing the total cost of ownership associated with high-performance AI accelerators [3] - The project has garnered support from a coalition of generative AI model providers, AI accelerator pioneers, and major AI cloud platforms, indicating deep collaboration within the industry to build large-scale LLM services [3] - Key contributors to the llm-d project include CoreWeave, Google Cloud, IBM Research, and NVIDIA, with partners such as AMD, Cisco, Hugging Face, Intel, Lambda, and Mistral AI [3][4] Group 3 - Google Cloud emphasizes the importance of efficient AI inference in the large-scale deployment of AI to create value for users, highlighting its role as a founding contributor to the llm-d project [4] - NVIDIA views the llm-d project as a significant addition to the open-source AI ecosystem, supporting scalable and high-performance inference as a key to the next wave of generative and agent-based AI [4] - NVIDIA is collaborating with Red Hat and other partners to promote community engagement and industry adoption of the llm-d initiative, leveraging innovations like NIXL to accelerate its development [4]
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
量子位· 2025-05-26 08:18
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 几乎让大模型全军覆没的新难题—— 看时钟 ,被国产AI给拿下了。 要知道,之前单单是一张时钟的图表,几乎所有大模型都答不对时间。 但现在,国产AI却可以直接 开视频 ,实时报准时间! 可以看到,这个国产AI先是准确地报出了 "4点14分" ,而在等了一分钟后,它也是可以再次准确报时 "4点15分" 。 那么这到底是何许AI也? 不卖关子,它就是豆包发布的新功能—— 视频通话 。 主打一个让AI 边看边聊天 。 而且啊,它还是接入了 联网搜索 的功能,所以回答的准确性和时效性这块也是拿捏到位了。 例如我们对着微博热搜的话题提个问题: 这个热搜第一的是什么新闻呀? 可以看到,联网的豆包在视频通话的过程中,就可以直接把当下的新闻热点给你总结出来。 不得不说,这种跟AI的互动,不论是趣味性还是可靠性,都大大地增强了。 除此之外,这次的新功能还增加了 "字幕" 的选项,点击之后就可以看到之前对话的具体内容啦~ 既然这个功能如此有趣,那我们必须安排一波深度实测。 来,走起~ 跟豆包一块看《甄嬛传》 我们先来简单介绍一下视频通话的操作方式。 打开豆包App之后,依次点击 ...
她如何把“系统2”带给了大模型 |对话微软亚洲研究院张丽
量子位· 2025-05-25 06:07
量子位智库 量子位 | 公众号 QbitAI 2023年,业界还在卷 Scaling Law ,不断突破参数规模和数据规模时,微软亚洲研究院张丽团队就选择了 另一条路径 。 早在 OpenAI o1 发布前,张丽团队就开始探索 大模型深度推理能力 。 System2 这个原属认知科学的词汇最早由她及团队引入大模型领域。 最近,她们通过 蒙特卡洛搜索算法 让 7B模型 实现了 o1级别的数学推理能力 。 rStar—Math 的发布引发学术圈内外的广泛讨论。 △ rStar-Math论文 在当前基于PPO/GRPO强化学习路线主导的当下,她们的工作又将带来哪些新的可能性? 本期 「大模型创新架构」主题访谈 , 量子位 邀请到 rStar-Math作者微软亚洲研究院首席研究员张丽 ,聊聊突破大模型智商上限、奖励模 型以及System2背后的故事。 张丽,MSRA系统研究组首席研究员,微软LongRoPE及rStar系列工作项目leader。 △ 微软亚洲研究院系统研究组首席研究员张丽 以下为 量子位 与 rStar-Math作者微软亚洲研究院首席研究员张丽 的对话实录整理: 智商突围 量子位:能简单介绍下rSta ...
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
量子位· 2025-05-24 04:38
MathIF团队 投稿 量子位 | 公众号 QbitAI 如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么 选? 最近, 上海人工智能实验室 与 香港中文大学的研究团队 发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准 MathIF 揭示: 大模型越擅长复杂推理,越容易忽略用户的指令要求," 聪明 "和" 听话 "之间存在明显的矛 盾。 这项工作的灵感,源自实际使用推理模型(如o3)过程中的一个意外发现:相比许多经过强 化推理训练的大模型,GPT-4o在执行具体指令时反而更加"听话" 。也正是这种"越聪明、越 不听话"的真实体验,让研究团队开始系统性地研究推理能力与指令跟随之间的关系。 这一研究也引来知名博主的转发: 研究揭示越擅长数学推理的模型反而越难完全遵守指令,同时分析了模型大小与服从性的非 正相关现象,强调了推理能力与指令遵循之间的权衡。 MathIF:衡量推理模型"听话程度"的新基准 Math ...
DeepSeek用的GRPO有那么特别吗?万字长文分析四篇精品论文
机器之心· 2025-05-24 03:13
选自Nathan Lambert博客 机器之心编译 作者: Nathan Lambert 本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点,读完会对 GRPO 及其改进算法有更深的理解,进 而启发构建推理模型的新思路。 随着 DeepSeek R1 的持续爆火,推理和强化学习已经成为 AI 领域的热门词汇。 短短几个月的时间,我们已经见证了太多的推理大模型,AI 更新迭代速度似乎已经快进到了以天为单位。 但在众多研究成果中找到值得关注的内容并不容易。 这有一篇价值非常高的博客,可以帮你梳理最近关于推理模型的研究,重点关注 DeepSeek R1 里用到的 GRPO 及后续的改进算法,非常值得一读。作者是来自 AI2 的 ML 科学家 Nathan Lambert,他博士毕业于 UC 伯克利,曾在 HuggingFace 领导 RLHF 团队。 博客地址:https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo 文章列举了最近比较火的论文和大模型,包括: 此外,作 ...
华为的三个黑科技,要颠覆AI计算?
虎嗅APP· 2025-05-23 11:47
HUAWEI X HUXIU AMLA × 融合算子 × SMTurbo 让大模型推理速度与能效双重革命 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.5 :昇腾亲和 它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与 复用机制,让芯片处理海量数据时如虎添翼。 而昇腾此次开源的三大技术,正是算子优化的 "终极形态" ...
“最强编码模型”上线,Claude 核心工程师独家爆料:年底可全天候工作,DeepSeek不算前沿
3 6 Ke· 2025-05-23 10:47
| Claude | | Claude | Claude | OpenAl o3 | OpenAl | Gemini 2.5 Pro | | --- | --- | --- | --- | --- | --- | --- | | Opus 4 | | Sonnet 4 | Sonnet 3.7 | | GPT-4.1 | Preview (05-06) | | Agentic coding | 72.5% / | 72.7%/ | 62.3% / | 69.1% | 54.6% | | | SWE-bench Verified15 | 79.4% | 80.2% | 70.3% | | | 63.2% | | Agentic terminal coding | 43.2% / | 35.5% / | 35.2% | 30.2% | 30.3% | 25.3% | | Terminal-bench2.8 | 50.0% | 41.3% | | | | | | Graduate-level reasoning | 79.6% / | 75.4%/ | 78.2% | 83.3% | 66.3% | 83.0% | ...