深度推理

Search documents
深度推理大模型,去魅“天价报志愿”
2 1 Shi Ji Jing Ji Bao Dao· 2025-06-18 14:04
21世纪经济报道记者王峰 北京报道 AI报志愿究竟靠不靠谱? 高考志愿填报在即,"天价报志愿"服务再次受到欢迎。据报道,网红张雪峰旗下机构两款12999元和 18999元的志愿服务产品早早售罄。 "天价报志愿"服务只能满足极少数考生的需求,在提供普惠性、基础性志愿服务方面,AI曾被寄予厚 望,但此类产品面世几年来,要么错误较多,不同产品推荐结果相互打架,要么只能作为参考,考生依 然需要志愿规划师的指导。 2025年或将有所改变。深度思考技术推动大模型辅助志愿填报又进了一步,不仅所推荐的志愿准确率更 高,而且高考志愿大模型有了AI Agent的雏形,搭建了类似真人志愿规划师的工作流,强化了志愿填报 的规划性。 普惠的AI技术越发展,高考志愿服务市场就越理性,高考考生越能远离"天价报志愿"。 不过,AI高考志愿还无法完全取代真人志愿规划服务,推动高考志愿填报服务的普及、普惠,需要加 大公共服务力度。 AI高考志愿进阶之路 大模型如何改变AI高考志愿产品? 2024年以前,市场上的AI高考志愿产品还不是大模型技术,而是基于数据库筛选的大数据技术。 考生输入自己的地区、选科、分数、排名信息,以及意向高校和专业的所在地 ...
不靠价格战,豆包大模型靠技术杀出重围
Jing Ji Guan Cha Wang· 2025-06-12 13:51
Core Insights - ByteDance's subsidiary Volcano Engine launched new AI models, including Doubao 1.6 and Seedance 1.0 pro, at the Force Original Power Conference, marking a significant step towards the Agentic AI era [1][2] - The Doubao model has achieved a daily token usage of over 16.4 trillion, a 137-fold increase since its initial release, and holds a 46.4% market share in China's public cloud model market [1][2] - The company emphasizes long-term investment in technology innovation to enhance industrial applications and maintain a competitive edge in the AI landscape [2][13] Product Development - Doubao 1.6 supports multi-modal understanding and graphical interface operations, allowing it to perform tasks such as booking hotels and organizing receipts into Excel [3][5] - Seedance 1.0 pro can generate high-quality 1080P videos with seamless transitions, ranking first globally in video generation tasks [3][5] - The introduction of a pricing model based on input length significantly reduces costs, making advanced AI capabilities more accessible to enterprises [5][8] Market Positioning - Doubao models are utilized by 9 out of the top 10 global smartphone manufacturers, 80% of mainstream automotive brands, and 70% of systemically important banks in China [2][6] - The rapid growth in token consumption across various applications indicates a deepening integration of AI models in multiple industries, including finance, automotive, and education [4][6] Strategic Vision - The company aims to redefine the role of AI in business processes, transitioning from traditional software to Agent-based systems that enhance productivity [13][16] - ByteDance's commitment to technology innovation and cost reduction reflects a balanced approach to achieving commercial success while addressing social responsibilities [14][15] Industry Impact - The rise of Agentic AI is seen as a pivotal moment for digital transformation across industries, with the potential to reshape business processes and industry dynamics [16] - ByteDance's advancements in AI technology are expected to drive significant changes in how enterprises operate, enhancing efficiency and fostering innovation [16]
大模型高考成绩单出炉,讯飞星火语数外实力位居第一梯队
He Xun Wang· 2025-06-09 09:05
在深度推理的终极考场,AI正以惊人速度逼近人类顶尖学子水平。 当2025年全国高考1335万考生在考场奋笔疾书时,一场特殊的"AI高考"同步拉开帷幕,DeepSeek、字节 豆包、阿里通义千问、腾讯混元、讯飞星火、百度文心等国内第一梯队大模型全部参考。据多家媒体在 语文作文、数学、英语作文三科实测中,DeepSeek成为本年度国产大模型的"高考数学状元",讯飞星火 数学以1分之差位于第二,其中英文作文则在多个评测中,得分第一,而通义千问、豆包等模型也在部 分科目展现出顶尖实力。 这场由多家媒体联合专业教师团队主持的跨模型实测,不仅检验了AI的文本理解、逻辑推理与语言生 成能力,更揭示了国产大模型技术路线的最新格局:在深度推理的赛道上,掀起全民AI浪潮的 DeepSeek依然保有领先优势,全国产算力下70B量级的讯飞星火则凭借精准的算法优化与教育领域深 耕,已超越更大参数规模的对手。 语文作文:53分登顶,破题能力成胜负手 "全国卷一作文难哭考生"登上热搜当天,六大国产模型同步拿到老舍、艾青、穆旦的名句材料。在智通 财经旗下媒体"电厂"的语文作文评测中,面对"沉默与发声"的哲学命题,讯飞星火以《以歌为刃破长夜 ...
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
Bei Ke Cai Jing· 2025-06-09 01:24
6月8日下午,2025年高考英语科目考试结束。在今年高考英语北京卷的作文题目中,李华又一次成为"主角"。 与此同时,这场"语言能力大考"也成为AI大模型的试金石——从精准审题到地道表达,从逻辑连贯到文化适配,大语言模型能否作为"李华"完成高考英语作 文题目的独特要求?在各个大模型均已具备"深度思考"模式的当下,"AI考生"能拿到多少分?对此,新京报贝壳财经对国内外主流大语言模型进行了测评。 本次测评选择2025年高考英语北京卷作文题目,测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、腾讯混元T1、讯飞星火X1、百度文心X1六款深度 推理模型产品,并邀请北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文打分并作点 评。 本着客观公正和"盲评"原则,韩宪昌老师和赵文嘉老师给出了专业评分。本次参赛的六名大模型"AI考生"得分揭晓后由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。 具体来看,2025高考英语北京卷作文题目的要求为: 假设你是红星中学高三学 ...
她如何把“系统2”带给了大模型 |对话微软亚洲研究院张丽
量子位· 2025-05-25 06:07
量子位智库 量子位 | 公众号 QbitAI 2023年,业界还在卷 Scaling Law ,不断突破参数规模和数据规模时,微软亚洲研究院张丽团队就选择了 另一条路径 。 早在 OpenAI o1 发布前,张丽团队就开始探索 大模型深度推理能力 。 System2 这个原属认知科学的词汇最早由她及团队引入大模型领域。 最近,她们通过 蒙特卡洛搜索算法 让 7B模型 实现了 o1级别的数学推理能力 。 rStar—Math 的发布引发学术圈内外的广泛讨论。 △ rStar-Math论文 在当前基于PPO/GRPO强化学习路线主导的当下,她们的工作又将带来哪些新的可能性? 本期 「大模型创新架构」主题访谈 , 量子位 邀请到 rStar-Math作者微软亚洲研究院首席研究员张丽 ,聊聊突破大模型智商上限、奖励模 型以及System2背后的故事。 张丽,MSRA系统研究组首席研究员,微软LongRoPE及rStar系列工作项目leader。 △ 微软亚洲研究院系统研究组首席研究员张丽 以下为 量子位 与 rStar-Math作者微软亚洲研究院首席研究员张丽 的对话实录整理: 智商突围 量子位:能简单介绍下rSta ...