大阪都会大学医学研究生院Hirotaka Takita博士和Daiju Ueda副教授领导的研究小组进行了一项系统性回顾和荟萃分析,评估了生成式人工智能(AI)在医疗诊断方面的表现,并将其与医生的表现进行了对比。研究团队从18371项研究中筛选出83项进行详细分析,涉及包括GPT-4、Llama370B、Gemini1.5Pro和Claude3Sonnet等多种AI模型,覆盖多个医疗领域。结果显示,这些AI模型的平均诊断准确率为52.1%,部分模型的诊断准确率与非专家医生相当,两者之间没有显著统计差异。然而,专家医生的表现仍优于AI,准确率差距为15.8%。随着技术的进步,这一差距可能会缩小。
研究还发现,在大多数医学专科中AI的表现较为一致,但在皮肤科和泌尿科中有所不同。在皮肤科,AI的表现更为出色,可能是因为该领域涉及模式识别,这是AI的强项。但对于泌尿科,研究结果仅基于一项大型研究,结论的普适性受到限制。
Hirotaka Takita博士指出,生成式AI的诊断能力与非专家医生相当,可以用于医学教育、支持非专家医生,并在医疗资源有限的地区协助诊断。未来的研究需要在更复杂的临床场景中评估AI的性能,并提高AI决策的透明度。
此外,研究强调了生成式AI在医学教育中的潜力,可以用于模拟真实病例,帮助医学生和受训者学习和评估技能。但同时,研究也对AI模型的透明度和偏见提出了担忧,强调需要开发清晰、符合伦理且经过充分验证的AI应用。
尽管生成式AI具有巨大潜力,但在涉及详细患者信息的复杂病例中仍面临挑战。目前尚难定论医生是否需要担心失去工作,但在诊断领域,这种情况是有可能发生的。