GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

医疗大模型知识覆盖度首次被精准量化！在医疗领域，大语言模型（LLM）的潜力令人振奋，但其知识储备是否足够可靠？腾讯优图实验室天衍研究中心的最新研究给出了答案。他们提出的 MedKGEval框架，首次通过医疗知识图谱（KG）的多层级评估，系统揭示了GPT-4o等主流模型的医学知识覆盖度。该研究已被WWW 2025会议Web4Good Track录用为口头报告（oral）。目前，WWW 2025正在悉尼举行，会议时间从4月28日持续至5月2 日。 MedKGEval团队投稿量子位 | 公众号 QbitAI 背景大语言模型（LLM）在医疗领域的快速发展凸显了其知识存储与处理的潜力，但其临床部署前的可靠性验证亟需更系统化的评估框架。当前主流的Prompt-CBLUE、Medbench和MedJourney等评估体系虽通过医学问答基准测试LLM的任务执行能力，却存在三个明显的局限： 1）其长尾数据分布导致罕见病症覆盖不足，评测结果存在偏差； 2）任务导向的设计聚焦疾病预测、用药咨询等单一场景，难以量化模型内在医学知识储量； 3）传统问答形式局限于表面对错判断，无法捕捉医学概念间的复杂拓扑关联。为解决这 ...