AI医生考试高分，实战不及格？Nature Medicine论文显示，AI大模型不能帮助公众作出更好的医疗决策

撰文丨王聪编辑丨王多鱼排版丨水成文当你感觉的身体不适时，是否考虑过向 AI 咨询医疗建议？全世界的全球医疗保健提供者正在探索使用大语言模型（LLM）为公众提供医疗建议。如今，LLM 在医学执业考试中几乎能取得满分，然而，考试所考察的是对标准化知识的记忆和理解。LLM 在这方面是"超级优等生"，能快速检索海量信息。但在现实场景中，医疗决策更像是一门艺术，需要整合模糊、不完整甚至矛盾的病人信息（症状、病史、情绪、社会经济因素等），并进行权衡。因此，LLM 强大的考试能力，是否能够转换为在现实医疗场景中的表现，仍有待观察。此外，华山医院张文宏医生近日在高山书院论坛上明确表示，反对将 AI 系统性地引入医院病历和日常诊疗流程，其担心 AI 可能会削弱年轻医生的临床思维训练与专业判断能力。 2026 年 2 月 9 日，牛津大学的研究人员在国际顶尖医学期刊 Nature Medicine 上发表了题为： Reliability of LLMs as medical assistants for the general public: a randomized preregistered ...