Workflow
推理能力
icon
Search documents
MedBench最新榜单出炉!深兰科技医疗大模型综合测评第一
Zheng Quan Ri Bao· 2025-05-28 14:14
MedBench是中文医疗大模型第一权威评测平台,由上海人工智能实验室与上海市数字医学创新中心联 合国内多家医疗机构和科研单位设立,该平台汇聚了顶级医疗机构的专家经验和知识储备,已为全球超 过387个模型提供评测。 深兰科技DeepBlue-MR-v1医学推理大模型是由深兰科技自主研发的医学推理大模型,擅长临床医学问 诊、辅助医学诊断和制定诊疗方案等任务,通过对医学教科书、诊疗指南、专家论文、病案病历、医学 推理、医学术语以及心理咨询等海量数据的清洗、构建和医学专家团队标注,运用自研训练体系,实现 了人类医学推理能力对齐的基于Transformer架构的稠密大语言模型。DeepBlue-MR-v1医学推理大模型 在海量高质量的医学数据上进行预训练,构建医学推理语义空间,通过训练监督微调、医学推理指令增 强和多阶段自适应强化学习算法实现医学推理能力迭代提高。 5月27日,国内权威医疗大模型评测平台MedBench发布最新评测榜单。深兰科技DeepBlue-MR-v1医疗 大模型不仅以复杂医学推理评测第一的成绩持续霸榜,而且在多个综合评测中以94.2的高分荣膺桂冠。 榜单显示,参与本次评测的大模型有腾讯优图天衍医 ...
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 04:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型做数独,总体正确率只有15%??? 继出场自带十篇完整学术论文的 史上首个"AI科学家" 之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。 这次,Sakana AI公布了一个AI模型 解决数独问题能力的排行榜 。 问题集是该公司推出的 全新基准Sudoku-Bench ,包含了 从简单的4x4到复杂的9x9现代数独 问题,旨在考验大模型 创造性推理能力 。 榜单显示,大模型不仅总体正确率只有 15% ,在9×9的现代数独中,即使是高性能模型 o3 Mini High ,正确率也只有2.9%。 | 3 | oluvuu-pollull lesauci kvalu | | --- | --- | | Model | Puzzles Solved | | O3 Mini High | 14.0% | | Gemini 2.5 Pro | 11.0% | | Qwen 3 235B A22B | 8.0% | | Qwen 3 30B A3B | 7.0% | | Grok 3 Mini | 6.0% | ...
清华学霸与AI比做高考压轴题,谁会赢?
第一财经· 2025-05-27 15:21
2025.05. 27 对于AI的回答,一位姚班学生认为AI做题思路与其一致,步骤更加清晰,相较于传统的答案更有利于 学生理解解题思路。 可以对比的是,去年高考结束后,有机构让包括GPT-4o、豆包、文心4.0在内的9家大模型尝试河南 的高考卷,并以河南的分数线评判,最终有4家大模型在文科高考中达到河南的一本线,但没有大模 型的理科分数达到河南省一本线。 有道相关负责人对记者表示,今年以来AI进展迅速,尤其是DeepSeek-R1带来了推理模型大爆发, 而大模型推理能力和交互能力在教育场景的适配性非常高,能够逐步解决个性化教学和答疑的需求, 而且提供的指导和答疑质量越来越高,所以选择与高考顶尖学霸进行同题测试,用一种直接明了的方 式向大众展示AI大模型能力的提升。 在题型选择上,主要基于难度和认知度的考量,上述负责人表示,"因为大家对高考的难度都是有概 念的,尤其是这种高难度的理科压轴题,容易引起关注,也能直观展示效果。" 上述人士透露,前段时间还做了北京最新高考二模(题库数据里没有的新题)的挑战。AI答题后由老 师进行批改,分数为697分(总分750分),达到"清北"水平。"毕竟去年AI集体做24年高考题的 ...
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
量子位· 2025-05-26 08:18
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 几乎让大模型全军覆没的新难题—— 看时钟 ,被国产AI给拿下了。 要知道,之前单单是一张时钟的图表,几乎所有大模型都答不对时间。 但现在,国产AI却可以直接 开视频 ,实时报准时间! 可以看到,这个国产AI先是准确地报出了 "4点14分" ,而在等了一分钟后,它也是可以再次准确报时 "4点15分" 。 那么这到底是何许AI也? 不卖关子,它就是豆包发布的新功能—— 视频通话 。 主打一个让AI 边看边聊天 。 而且啊,它还是接入了 联网搜索 的功能,所以回答的准确性和时效性这块也是拿捏到位了。 例如我们对着微博热搜的话题提个问题: 这个热搜第一的是什么新闻呀? 可以看到,联网的豆包在视频通话的过程中,就可以直接把当下的新闻热点给你总结出来。 不得不说,这种跟AI的互动,不论是趣味性还是可靠性,都大大地增强了。 除此之外,这次的新功能还增加了 "字幕" 的选项,点击之后就可以看到之前对话的具体内容啦~ 既然这个功能如此有趣,那我们必须安排一波深度实测。 来,走起~ 跟豆包一块看《甄嬛传》 我们先来简单介绍一下视频通话的操作方式。 打开豆包App之后,依次点击 ...
她如何把“系统2”带给了大模型 |对话微软亚洲研究院张丽
量子位· 2025-05-25 06:07
量子位智库 量子位 | 公众号 QbitAI 2023年,业界还在卷 Scaling Law ,不断突破参数规模和数据规模时,微软亚洲研究院张丽团队就选择了 另一条路径 。 早在 OpenAI o1 发布前,张丽团队就开始探索 大模型深度推理能力 。 System2 这个原属认知科学的词汇最早由她及团队引入大模型领域。 最近,她们通过 蒙特卡洛搜索算法 让 7B模型 实现了 o1级别的数学推理能力 。 rStar—Math 的发布引发学术圈内外的广泛讨论。 △ rStar-Math论文 在当前基于PPO/GRPO强化学习路线主导的当下,她们的工作又将带来哪些新的可能性? 本期 「大模型创新架构」主题访谈 , 量子位 邀请到 rStar-Math作者微软亚洲研究院首席研究员张丽 ,聊聊突破大模型智商上限、奖励模 型以及System2背后的故事。 张丽,MSRA系统研究组首席研究员,微软LongRoPE及rStar系列工作项目leader。 △ 微软亚洲研究院系统研究组首席研究员张丽 以下为 量子位 与 rStar-Math作者微软亚洲研究院首席研究员张丽 的对话实录整理: 智商突围 量子位:能简单介绍下rSta ...
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
量子位· 2025-05-24 04:38
MathIF团队 投稿 量子位 | 公众号 QbitAI 如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么 选? 最近, 上海人工智能实验室 与 香港中文大学的研究团队 发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准 MathIF 揭示: 大模型越擅长复杂推理,越容易忽略用户的指令要求," 聪明 "和" 听话 "之间存在明显的矛 盾。 这项工作的灵感,源自实际使用推理模型(如o3)过程中的一个意外发现:相比许多经过强 化推理训练的大模型,GPT-4o在执行具体指令时反而更加"听话" 。也正是这种"越聪明、越 不听话"的真实体验,让研究团队开始系统性地研究推理能力与指令跟随之间的关系。 这一研究也引来知名博主的转发: 研究揭示越擅长数学推理的模型反而越难完全遵守指令,同时分析了模型大小与服从性的非 正相关现象,强调了推理能力与指令遵循之间的权衡。 MathIF:衡量推理模型"听话程度"的新基准 Math ...
北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述
机器之心· 2025-05-07 07:37
当前大模型研究正逐步从依赖扩展定律(Scaling Law)的预训练,转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性, 提升大模型的逻辑推理能 力 成为解决幻觉问题的关键途径。 为推进大语言模型的逻辑推理能力研究,来自 北大、清华、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)、MBZUAI 等 5 所高校 的研究人员全面调研了 该领域最前沿的研究方法和评测基准,联合发布了调研综述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,针对两个关键科学问题 —— 逻辑问答和逻辑一致性 ,对现有方法进行归纳整理并探讨了未来研究方向。 该综述论文已被 IJCAI 2025 Survey Track 接收,并且作者团队将于 IJCAI 2025 现场围绕同一主题进行 Tutorial 演讲,全面探讨该研究领域的挑战、方法与机遇。 论文标题:Empowering LLMs with Logical Reasoning: A Comprehensive Survey 论文链接:https://arxiv.org/abs/2502. ...
从论文中积累复现 R1 的 insight
理想TOP2· 2025-04-30 13:04
以下文章来源于刘聪NLP ,作者周星星 ,恢复了 PPO 的原始目标,采用蒙特卡罗回报估计优势,并设置无偏基线,从而 有效避免了优化偏差,在提升令牌效率的同时,还能维持模型的推理性能。 4. 推理能力的提升是渐进的,没有明显的"顿悟时刻" 6. 避免"长度作弊"需自然扩展响应。 刘聪NLP . NLP刘聪,如货币般流通!这里的刘聪,不会rapper,只发paper!长期关注AIGC前沿内容!还写过两 本书:ChatGPT原理与实战、大型语言模型实战指南!欢迎来讨论AI! 上篇 R1复现小记:在业务场景的两类NLP任务上有显著效果 提到在业务场景中复现 DeepSeek-R1,也简单 记录下最近阅读一些论文过程中积累的 insight。 [1]Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [2]An Empirical Study on Eliciting and Improving R1-like Reasoning Models [3]Understanding R1-Zero-Like Training: ...
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心· 2025-04-28 08:04
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍 阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。 PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位 全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越 的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。 在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强 化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 "超越人类专家"。 但是,随着模型能力和评测基准的军备竞赛白热化, 越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。 这些题目虽然能 ...
长文本向量模型在4K Tokens 之外形同盲区?
AI科技大本营· 2025-03-27 02:23
责编 | 梦依丹 2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统"大海捞针"(Needle-in-a-Haystack, NIAH)测试依赖 关键 词匹配的做法,它最大的特点是 通过精心设计问题和关键信息,迫使模型进行 深层语义理解和推理,才能从长文本中找到答案。Jina AI 技术团队 受到启发,并进针对向量模型 jina-embeddings-v3 进行了类似实验。 NoLiMa: https://arxiv.org/abs/2502.05167 NoLiMA 的研究结果揭示了一个重要问题:那些号称能处理几十万甚至上百万词元(tokens)的 LLM,在真正需要理解长文本的任务里,性能大打折 扣。比如,在 32K 词元的长度下,有 10 个受测模型,表现还不如处理短文本(小于 1K 词元)时的一半好;就连表现最好的 GPT-4o,性能也从接近完 美的 99.3% 掉到了 69.7%。 【编者按】 2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统"大海捞针"(Needle-in-a-Haystack ...