哈佛医学院生物医学信息学助理教授 Arjun Manrai 与贝斯以色列女执事医疗中心(BIDMC)住院医师研究员 Adam Rodman 联合领衔的 25 人团队,4 月 30 日在《Science》发表研究,首次在五类标准化临床推理任务与真实急诊室场景中全面证明大语言模型(LLM)的诊断能力超越医师基线。研究预印本于 2024 年 12 月挂上 arXiv(arXiv:2412.10849),经过两轮修订后以 DOI 10.1126/science.adz4433 正式发表。五项实验涵盖鉴别诊断生成、诊断推理呈现、分诊鉴别、概率推理与管理推理,全部由具备测量效度的医师专家裁判。真实世界部分在波士顿一家大型三甲教学医院急诊室对随机患者的三个预定诊断节点(分诊、首诊、收入院或 ICU)进行 LLM 与执照医师第二意见对比——在所有实验中 LLM 均超越医师基线,且较上一代 AI 临床辅助决策系统有可测量的进步。
研究将这一结果定位为 1959 年 Ledley 与 Lusted 设立"复杂临床推理病例作为医学 AI 最高评估标准"这一传统整整 65 年后的宣告性突破——“AI 已超越几乎所有临床推理基准”,传统多选题基准已趋于饱和且与真实临床表现脱钩,应尽快开展前瞻性随机对照试验以真正验证 AI 在临床场景中的价值与安全性。研究者同时指出,超人表现不等于可部署——LLM 仍面临幻觉、缺乏体格检查与影像原始信号、无法动态更新信息等实际局限;主要新闻报道援引的测试模型为 GPT-5.4(o3 正式发布版),研究团队与 OpenAI、Microsoft 研究院均有协作,Eric Horvitz(微软首席科学家)亦列为作者之一,利益关系已在论文中申报。
Science | arXiv 预印本 | EurekAlert
https://arxiv.org/abs/2412.10849