Workflow
大模型推理能力
icon
Search documents
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 15:52
生成式AI 一、 从亲密伙伴抢人,Cursor挖走Claude Code两位核心人物 1. Cursor开发商Anysphere挖走Claude Code核心人物Boris Cherny和Cat Wu,尽管双方 是密切合作伙伴; 2. Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型; 3. Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元,AI编程市场竞争加 剧。 https://mp.weixin.qq.com/s/xsPfOFxttF7s9bq3o-F_Iw 二、 智谱开源GLM-4.1V-Thinking视觉推理模型,10B级SOTA 1. 智谱开源GLM-4.1V-9B-Thinking模型,采用课程采样强化学习策略,在18项权威评测 中超越8倍参数的72B模型; 2. 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D-RoPE和3D- RoPE位置编码增强处理能力; 3. 训练过程分为多模态预训练、长上下文持续训练、监督微调和课程采样强化学习四个阶 段,显著提升逻辑推理能力。 https://mp.weixin.qq. ...
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 02:25
西风 发自 凹非寺 量子位 | 公众号 QbitAI 该测试引来 OpenAI前A GI Readine ss团队负责人Miles Brundage 的转发关注。 OpenAI"最新最强版"推理模型 o3-pro ,实际推理能力到底有多强? 全球 首位全职提 示工程师Riley Go odside 来给它上难度: 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时, 每个单词最后一个字母连起来看,也能对应这首歌名 。 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测, o3只能做对个大概 ,通常只能把最后几个字母凑对。 虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。 PS: 苹果前几天发了个新研究 ,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的"模式匹配",所谓思 考只是一种假象。 除了网友实测外,各大评测榜单已陆续同步更新排名。 总结来看,和官方给的测试结果略有不同。 官方测评中,o3-pro超越o3、o1-pro,成为当前 ...
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
Di Yi Cai Jing· 2025-05-29 14:10
报告显示此前 R1模型幻觉率在21%左右。 在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强 化、幻觉改善和创意写作更好等。 值得一提的是,DeepSeek提到,新版DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻 觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。 所谓幻觉即大模型的"胡说八道",此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性 幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。 doubao-1.5-pr 在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已 接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。 gemini-2.5-pro-p1 gemini-2.5-flash-t ...
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 04:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的 史上首个"AI科学家" 之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型 解决数独问题能力的排行榜 。 问题集是该公司推出的 全新基准Sudoku-Bench ,包含了 从简单的4x4到复杂的9x9现代数独 问题,旨在考验大模型 创造性推理能力 。 榜单显示,大模型不仅总体正确率只有 15% ,在9×9的现代数独中,即使是高性能模型 o3 Mini High ,正确率也只有2.9%。 | 3 | oluvuu-pollull lesauci kvalu | | --- | --- | | Model | Puzzles Solved | | O3 Mini High | 14.0% | | Gemini 2.5 Pro | 11.0% | | Qwen 3 235B A22B | 8.0% | | Qwen 3 30B A3B | 7.0% | | Grok 3 Mini | 6.0% | ...
清华学霸与AI比做高考压轴题,谁会赢?
第一财经· 2025-05-27 15:21
2025.05. 27 对于AI的回答,一位姚班学生认为AI做题思路与其一致,步骤更加清晰,相较于传统的答案更有利于 学生理解解题思路。 可以对比的是,去年高考结束后,有机构让包括GPT-4o、豆包、文心4.0在内的9家大模型尝试河南 的高考卷,并以河南的分数线评判,最终有4家大模型在文科高考中达到河南的一本线,但没有大模 型的理科分数达到河南省一本线。 有道相关负责人对记者表示,今年以来AI进展迅速,尤其是DeepSeek-R1带来了推理模型大爆发, 而大模型推理能力和交互能力在教育场景的适配性非常高,能够逐步解决个性化教学和答疑的需求, 而且提供的指导和答疑质量越来越高,所以选择与高考顶尖学霸进行同题测试,用一种直接明了的方 式向大众展示AI大模型能力的提升。 在题型选择上,主要基于难度和认知度的考量,上述负责人表示,"因为大家对高考的难度都是有概 念的,尤其是这种高难度的理科压轴题,容易引起关注,也能直观展示效果。" 上述人士透露,前段时间还做了北京最新高考二模(题库数据里没有的新题)的挑战。AI答题后由老 师进行批改,分数为697分(总分750分),达到"清北"水平。"毕竟去年AI集体做24年高考题的 ...