循证推理
Search documents
AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品
量子位· 2025-12-29 06:37
允中 发自 凹非寺 量子位 | 公众号 QbitAI 蚂蚁健康 与北京大学人民医院 王俊 院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了 全球首个大模型专病循证能 力的评测框架 —— GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。 旨在解决现有医疗AI评测局限于考试式问答、缺乏临床深度、完整性、鲁棒性与安全性综合评估的问题。 该评测集聚焦 肺癌 领域,包含 92个问题 、覆盖 1691个临床要点 ,并配套全自动化的评测工具链,通过指南锚定、多智能体协 同实现从问题生成、评分标准制定到多维度打分的端到端自动化。 目前,相关成果已应用于"蚂蚁阿福",论文《GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians》、配套评测集GAPS-NSCLC-preview、自动化评测框架已全面公开。 这项研究客观评价了大模型的临床能力:当前主流医疗大模型虽已具备"医学百科全书"般的知识广度,但在临床实践中仍处于 ...