AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑
2 1 Shi Ji Jing Ji Bao Dao·2025-05-17 05:05
21世纪经济报道记者 闫硕 北京报道 近日,OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全 可靠性,引发业内广泛讨论。 根据官方信息,HealthBench由262位来自60个国家/地区执业的医生共同参与构建,整合了5000段真实的 医疗对话数据。与以前的狭窄基准不同,HealthBench通过48562个独特的医生编写的评分标准进行有意 义的开放式评估,涵盖多个健康背景和行为维度。 有研报分析指出,随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善,AI医疗模型的性 能评估将更加科学、全面,有助于加速AI技术在医疗领域的落地应用,为医疗行业的智能化升级提供 有力支持,相关企业有望迎来新的发展机遇。 另一方面,大模型本身也在加速变革。事实上,随着大模型竞争的白热化,竞争的焦点也已进入全新阶 段:从早先粗放的参数体量堆砌竞赛,转变为模型效率优化与单位算力下的性能提升。 IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示,随着大模型的不断进化,以及模型 优化方法的不断提升,已经为AI在要求更特殊的专业场景中的更 ...