Workflow
文心X1
icon
Search documents
腾讯元宝 逐渐失宠
Sou Hu Cai Jing· 2025-06-19 08:18
每年6月的中高考季,语文作文题目便会成为热点议题,今年的热点又多了一个——大模型挑战高考数学题。 | €B | | | | | | | | | 顶流大模型「大战」高考数学题 | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 题目类型 | | | | | 单选题 | | | | | 多选题 | | | 填空题 | | 总分 | 答题情况 | 正确率 | | 圆号 | 1 | 2 | 3 | 4 | 5 | ર | 7 | 8 | ે | 10 | 11 | 12 | 13 | 14 | | | | | 字节-豆包 | B | B | 2 | D | D | × | D | D | D | B | B | B | B | B | 68 | 仅错了1道单选题 | 93% | | 深度求索-DeepSeek | B | D | D | D | D | × | 2 | x | B | B | 2 | D | B ...
我让10个大模型又参加了完整版数学高考,第一名居然是它。。。
数字生命卡兹克· 2025-06-09 21:20
昨天,我不是发了几个大模型参加数学高考的测试文章嘛。 没想到热度挺高,大家还挺关注的。 不过,很多评论区的小伙伴也说,根本看不出来区别。 因为缺了对AI难度最高的单选第6题,还有后面那些解答题。 那我想,不如再把模型补上,加上全缺失的智谱Z1、Kimi1.5、文心X1,(不带Claude 4,封号斗罗,我恨他),再做一个,完整的满血版的数学高考, 让大家最直观的,感受一下这些模型的数学能力水平。 让大家看看,满分150分,每个模型到底多少分,哪个模型能拿高考数学状元。 因为要做解答题了,和选则填空不太一样,所以我还是单独定了一下规则,规则如下: 1. 数学大题往往都有两到三个小问,但是每个小问具体的赋分都不太一样,邀请了朋友(高中老师)来估摸一下每个小问的分数,如下,都取后者: 2. 高考大题往往会按照步骤给分,但是主要我也看不懂步骤(勿喷),所以这里我们不妨对大模型严格一点,按照结果是否正确来给分。 3. 每道题任然使用大模型跑3次,根据正确比例给分。 4. 依然所有的文本题,都 使用LaTeX编辑器转成LaTeX文本格式,再扔给大模型进行回答。 5. 带图片的多模态题也加入测试,直接截图进行作答,没有多模 ...
深度推理模型写高考英语作文谁更强?记者实测,名校英语教师点评
Bei Ke Cai Jing· 2025-06-09 01:24
6月8日下午,2025年高考英语科目考试结束。在今年高考英语北京卷的作文题目中,李华又一次成为"主角"。 与此同时,这场"语言能力大考"也成为AI大模型的试金石——从精准审题到地道表达,从逻辑连贯到文化适配,大语言模型能否作为"李华"完成高考英语作 文题目的独特要求?在各个大模型均已具备"深度思考"模式的当下,"AI考生"能拿到多少分?对此,新京报贝壳财经对国内外主流大语言模型进行了测评。 本次测评选择2025年高考英语北京卷作文题目,测评对象为DeepSeek R1、ChatGPT o3、通义千问Qwen3、腾讯混元T1、讯飞星火X1、百度文心X1六款深度 推理模型产品,并邀请北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉参照往年高考评分标准对上述大模型生成的英语作文打分并作点 评。 本着客观公正和"盲评"原则,韩宪昌老师和赵文嘉老师给出了专业评分。本次参赛的六名大模型"AI考生"得分揭晓后由高到低的排名分别为:讯飞星火 X1、DeepSeek R1、百度文心X1、通义千问Qwen3、ChatGPT o3、腾讯混元T1。 具体来看,2025高考英语北京卷作文题目的要求为: 假设你是红星中学高三学 ...
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心· 2025-06-07 22:35
而自从生成式 AI 走红后,大模型「决战」高考也成了每年的保留节目,尤其是在今年这个国内外大模型卷 逻辑推理的当口。趁着各家大模型还来不及「作弊」,我们就用这新鲜出炉的高考数学题考考它们。 在考题选择上,我们采用 2025 年数学新课标 Ⅰ 卷中的 14 道客观题进行测试,满分 73 分,包括 8 道单选 题、3 道多选题、3 道填空题。为保证公平公正,我们将题目截图分别投喂给大模型,不做 System Prompt 引导,不开启联网搜索,直接输出结果,且所有测试模型只有一次答题机会。 (注:在实测中我们发现 DeepSeek 的 OCR 识别出现不少错误,所以此次使用其他 AI 将图片转化为文本问题,再对 DeepSeek 进行测 试。) 编辑:杨文 还在让大模型写高考作文?有本事做高考数学卷子。 又是一年高考时。 这届考生上午刚经历了抽象作文的洗礼,下午又被数学无情创飞。考试一结束,「高考数学」、「新一卷 数学大题 难」等词条就火速冲上微博热搜,考生们在评论区集体「哀嚎」:「大题写到怀疑人生」、「选 择填空送分,大题送命」。 机器之心报道 规则搞清楚了,接下来有请此次的参赛选手: 字节的豆包、深度求索的 ...
牵手65%央企,深入千行百业
Sou Hu Cai Jing· 2025-06-06 15:41
今天,很荣幸地分享一个好消息—— 百度智能云已牵手65%的央企,共同推进大模型产业落地。得益于全栈的AI能力,百度联合众多央国企伙伴,针对各类不同业务场景,打造了一大批可 推广、可复制的标杆案例。 6月6日,2025智能经济论坛在京举行,旨在聚焦AI技术在实体产业中的前沿实践与落地成果,全面展现大模型赋能千行百业的创新图景。 活动上,百度沈抖宣布,已有65%的央企选择与百度智能云开展深度合作,共同探索AI创新。 同时,百度智能云重磅发布千帆慧金金融大模型,并推出了覆盖能源、交通、医疗、汽车、环境等领域的精选行业场景智能体家族。 01 从"能用"到"好用" "行业场景智能体家族"上线千帆平台 百度智能云千帆大模型平台作为业界领先的企业级"智能体工厂",提供了覆盖Agent 开发、管理全生命周期的一站式工具链,帮助企业快速构建属于自己 的智能体生态。在电力、交通、医疗、环境等高价值场景中,智能体的应用正不断突破技术瓶颈,进入快速落地阶段。 ◎ 在智能出行领域,百度还推出"座舱大模型智能体",为车企打造面向家庭用户的智能交互体验。深蓝汽车已基于该智能体推出"深蓝精灵"产品,为0-15 岁儿童打造集绘本故事生成、英语 ...
百度AI战略提速首季赚77亿 千辆萝卜快跑奔向全球15城
Chang Jiang Shang Bao· 2025-05-22 23:40
长江商报消息 ●长江商报记者 沈右荣 AI战略加速推进,百度交出了一份亮丽的季度报告。 5月21日晚间,百度集团(以下简称百度,港股股票代码09888.HK)在港交所发布了2025年一季度财报,公司实 现营业收入约325亿元,同比增长约3%;归属百度的净利润(以下简称"归母净利润")约77亿元,同比增长约 42%。 百度表示,受智能云的增势加快所推动,公司业绩快速增长。智能云收入同比增长42%,其强劲增长反映了市场 认可公司提供的全栈AI产品与解决方案方面的实力。 今年一季度,百度智能云在国内大模型中标项目和金额再度夺得"双第一"。 备受关注的萝卜快跑,财报披露,百度萝卜快跑无人驾驶业务在迪拜、阿布扎比等海外市场战略合作迎来重大进 展。 百度电话会透露,萝卜快跑现已覆盖全球15座城市,部署超过1000辆无人汽车。 百度表示,今年一季度,升级MaaS平台千帆,扩充模型库并提供更全面的工具链,新增对多模态与推理模型训练 及微调的工具链,以进一步促进AI原生应用的开发。 百度称,其于《Fast Company》"2025年最具创新力公司"榜单中位列亚太区第二,仅次于深度求索 (DeepSeek),并因 "部署全球最 ...
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 12:34
金磊 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI "我们已经过渡到了可以进行复杂推理的下一个模型范式。" OpenAI CEO奥特曼在年度总结中,给出了他关于大模型未来发展的论断。 推理模型的重要性正在上升,成为了继基础模型之后各家厂商厮杀的新战场。 推理模型百家争鸣,究竟 哪家能力 更强?最近,这个问题有了答案。 近期, 中国信息通讯研究院 (信通院)发布了一项最新的大模型推理能力评估成绩,结果显示—— 文心X1 Turbo 在24项能力评估中,16项达5分、7项达4分、1项达3分,综合评级获当前 最高级"4+级" 。 而且还是国内首款,也是唯一通过该测评的大模型。 为什么文心能够入围"4+级"? 在百度刚刚举办的 AI Day 活动中, 百度集团副总裁吴甜 深入浅出地对其最新大模型,从模型、数据、应用等诸多方面做了深度解析和科 普,我们也与 她进行了一番对话 。 不妨从中来挖掘这个问题的答案。 △ 百度集团副总裁,吴甜 多模态融合,模仿人类思考 演讲中,吴甜介绍了文心大模型最新进展,也就是其在上个月发布的 文心4.5 Turbo 和 文心X1 Turbo : 两个新模型的核心亮点,也代表了文心 ...
永安期货港股市场回顾
2025年5月22日星期四 ➢ 特朗普税改案表决在即;长期美债 重挫。A股延续上攻态势。上证指数 收涨0.21%报3387.57点,深证成指涨 0.44%,创业板指涨0.83%。贵金属和 电池板块涨幅居前,创新药板块震 荡走强。港股高开,午后涨幅收窄。 香港恒生指数收盘涨 0.62% 报 23827.78点;恒生科技指数涨0.51%, 恒生国企指数涨0.84%。贵金属和电 池板块表现强势。大市成交额扩大 至2163亿港元。外盘方面,欧洲三 大股指收盘涨跌不一。美国三大股 指全线收跌,道指跌1.91%,标普500 指数跌1.61%报5844.61点,纳指跌 1.41%。特朗普减税案造成的财政影 响引发长期美债重挫,众议院可能 很快表决该法案。上海发布提振消 费专项行动方案。 14,000 16,000 18,000 20,000 22,000 24,000 26,000 21/5/2024 21/6/2024 21/7/2024 21/8/2024 21/9/2024 21/10/2024 21/11/2024 21/12/2024 21/1/2025 21/2/2025 21/3/2025 21/4/2025 ...
百度真把AI应用做成了
3 6 Ke· 2025-05-21 12:56
Core Viewpoint - The recent quarterly report from Baidu has positively influenced market sentiment, showcasing strong revenue and profit growth, particularly in its cloud and autonomous driving segments [1][4]. Group 1: Financial Performance - Baidu's total revenue for Q1 reached 32.5 billion yuan, with core net profit increasing by 48% year-on-year to 7.63 billion yuan [1]. - The cloud business exhibited impressive growth, with a year-on-year increase of 42% [3][17]. Group 2: Cloud Business Development - Baidu's cloud business has shown consistent growth over several quarters, driven by increased demand for AI-related cloud services [4][17]. - The launch of new large models, such as Wenxin 4.5 Turbo and Wenxin X1 Turbo, has enhanced Baidu's competitive edge by offering lower costs and superior performance compared to competitors [4][15]. Group 3: Autonomous Driving Segment - Baidu's autonomous driving service, "Luobo Kuaipao," provided over 1.4 million rides in Q1, marking a 75% year-on-year increase [7]. - The service has achieved significant safety milestones, with a cumulative testing mileage of over 130 million kilometers and an accident rate significantly lower than human drivers [9]. Group 4: Market Position and Future Outlook - Baidu is positioned as a leader in the AI application landscape, with expectations that 2025 will be a pivotal year for AI applications and autonomous driving [13][22]. - The company has established strategic partnerships, such as with Shenzhou, to enhance its autonomous driving rental services, indicating potential for commercialization [12]. Group 5: Investment Sentiment - Institutional investors are increasingly bullish on Baidu, with significant stock purchases noted from firms like Bridgewater and Fidelity, reflecting confidence in the company's growth prospects [21][22]. - The overall market sentiment is shifting towards companies with strong AI capabilities, with Baidu being a prime candidate for investment due to its robust performance and growth potential [22][23].
百度集团副总裁吴甜:文心4.5 Turbo源自文心4.5 效果更好 成本更低
news flash· 2025-05-20 13:38
百度集团副总裁吴甜5月20日在百度AI Day活动现场对文心大模型最新版本的技术创新进行了系统性讲 解。她表示,文心大模型4.5是多模态基础大模型,文心4.5 Turbo源自文心4.5,效果更好、成本更低。 此外,基于文心4.5 Turbo,文心X1升级到X1 Turbo,性能提升的同时,具备更先进的思维链,问答、 创作、逻辑推理、工具调用和多模态能力进一步增强。(上证报) ...