GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
量子位·2025-04-30 04:10
医疗大模型知识覆盖度首次被精准量化! 在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最新研究给出了答案。 他们提出的 MedKGEval框架 ,首次通过医疗知识图谱(KG)的多层级评估,系统揭示了GPT-4o等主流模型的医学知识覆盖度。 该研究已被WWW 2025会议Web4Good Track录用为口头报告(oral)。目前,WWW 2025正在悉尼举行,会议时间从4月28日持续至5月2 日。 MedKGEval团队 投稿 量子位 | 公众号 QbitAI 背景 大语言模型(LLM)在医疗领域的快速发展凸显了其知识存储与处理的潜力,但其临床部署前的可靠性验证亟需更系统化的评估框架。 当前主流的Prompt-CBLUE、Medbench和MedJourney等评估体系虽通过医学问答基准测试LLM的任务执行能力,却存在三个明显的局限: 1)其长尾数据分布导致罕见病症覆盖不足,评测结果存在偏差; 2)任务导向的设计聚焦疾病预测、用药咨询等单一场景,难以量化模型内在医学知识储量; 3)传统问答形式局限于表面对错判断,无法捕捉医学概念间的复杂拓扑关联。 为解决这 ...