电子健康记录系统使临床医生的行政责任不断增加,从而转移了他们对患者直接护理的注意力,并加剧了他们的职业倦怠。为此,人们开始采用大型语言模型来简化临床和行政任务。《柳叶刀-数字医疗》(The Lancet Digital Health)发表评论文章,研究试图了解大型语言模型对电子健康记录中患者电子门户信息的辅助作用将如何影响主观效率、临床建议和潜在危害。整体研究方案见附录。识别二维码或点击文末“阅读原文”,阅读论文原文。
电子健康记录(EHR)系统使临床医生的行政责任不断增加,从而转移了他们对患者直接护理的注意力,并加剧了他们的职业倦怠[1]。为此,人们开始采用大型语言模型(LLMs)来简化临床和行政任务。值得注意的是,Epic目前正在利用Open AI的ChatGPT模型(包括GPT-4)来通过在线门户发送电子信息[2]。在过去的5-10年中患者门户网站信息的数量不断增加[3],医院目前正在部署通用大型语言模型以管理这一负担,其中起草对患者信息的回复是大型语言模型在电子健康记录中最早的应用之一[2]。
以往的研究已经评估了大型语言模型对生物医学和临床知识问题的回复质量[4][5][6]。然而,它们在提高效率和减轻认知负担这方面的能力尚未得到证实,对于临床决策的影响也尚不清楚。为了填补这一知识空白,我们开展了一项概念验证最终用户研究以评估大型语言模型辅助患者信息回复的效果和安全性。这项研究呼吁人们采取一种可衡量的方法来在电子健康记录中实施大型语言模型,包括反映它们如何在临床环境中实际使用并考虑人为因素[7]。
在这项于2023年在美国马萨诸塞州波士顿市布列根和妇女医院(Brigham and Women’s Hospital)开展的两阶段观察性研究中,我们试图了解大型语言模型对电子健康记录中患者电子门户信息的辅助作用(即使用大型语言模型起草回复以供临床医生编辑)将如何影响主观效率、临床建议和潜在危害。整体研究方案见附录(第1页)。
在少许示例的提示下,GPT-4为癌症患者生成了100个情景与症状问题对。这些内容由肿瘤专家(DSB)进行人工审核和编辑,以确保它们反映了真实的临床情况。此外,GPT-4也根据提示生成了对于这些患者问题的回复。提示方法见附录(第2页)。
六位获得委员会认证的放射肿瘤主治医师(SM、FH、HE、BHK、FEC和JL)首先按照他们通常在临床实践中使用的方式回复了患者信息(阶段1:人工回复)。然后他们被要求编辑GPT-4的回复(大型语言模型草稿),使其成为临床上可接受的回复以发送给患者(阶段2:大型语言模型辅助回复)。大型语言模型辅助患者信息回复的效果通过对质量、安全性和有用性的评估和对回复内容的分析来探究。在对医生进行了信息来源的屏蔽后,每位医生评估了两个阶段中的26个场景和信息对,产生了56个双重注释病例和44个单一注释病例。附录中包括了这些情景和调查是如何呈现的以及指示和真实回复的示例(第3-7页)。
为了评估第1阶段和第2阶段生成的回复(人工回复、大型语言模型草稿、大型语言模型辅助回复)在内容上的差异,我们制定了指南来注释10个内容类别(附录第8页)。由两位未参加先前两阶段的医生(DSB和MA)通过基于内容的分类评估对50份回复进行了双重注释;所有类别的Cohen’s kappa都在0.75或以上。剩余的回复则由DSB单一注释。
统计分析使用SciPy v1.10.1中的Python统计包进行。所有的配对比较均采用Mann-Whitney U检验。p小于0.05为具有统计学意义。所有OpenAI应用程序编程接口的回复设置均为temperature=0和Top_p=0。本研究已获得丹娜-法伯/哈佛癌症中心机构审查委员会(Dana-Farber/Harvard Cancer Center Institutional Review Board)的批准。
人工回复的平均词数(34词)少于大型语言模型草稿(168词)和大型语言模型辅助回复(160词;所有比较中p<0.0001)。第1和第2阶段的完整调查结果见附录(第12页)。评估医生认为,在156份回复中,有11份(7.1%)大型语言模型草稿存在严重伤害风险,有1份(0.6%)则存在死亡风险。大多数有害的回复是由于错误地确定或传达了情景的敏锐度和建议采取的行动(附录第19页)。评估医生报告说,在156个案例中,大型语言模型提高了其中120例(76.9%)的主观效率。
医生之间在人工回复临床内容方面的一致性较差(平均Cohen’s kappa为0.10),在大型语言模型辅助下情况则有所改善(平均Cohen’s kappa为0.52)。
大型语言模型辅助回答的内容与大型语言模型草稿(p=0.81)的相似度高于人工回复(p<0.0001;如图)。与人工回复相比,大型语言模型草稿不太可能包含直接临床行动的内容,包括指导患者紧急或非紧急就诊以进行评估,以及描述临床医生针对问题将采取的行动(均为p<0.0001);但它更有可能提供广泛的教育、自我管理建议和应急计划(均为p<0.0001)。
图:回应内容比较
我们的研究结果表明,大型语言模型辅助可以提供所谓的两全其美的方案,在减轻医生的工作量的同时提高医生回复的一致性,并增强回复的信息量和教育价值。这些大型语言模型额外生成的内容通常是可以接受的,且造成的危害风险较少。
然而,我们也发现现有的评估不足以理解临床效用和风险,因为大型语言模型可能会意外地改变临床决策。此外,医生可能会直接采用大型语言模型的评估,而不是利用它们的回复来促进自己评估的交流。在人机协作框架中使用大型语言模型时,它可能会影响临床决策,因此需要对其进行监控并减轻影响。在使用大型语言模型辅助时,医生回复的内容发生了变化,这表明存在自动化偏差和锚定,可能会对患者的治疗效果产生下游影响。在大型语言模型草稿和大型语言模型辅助回复两种情况中医生间一致性和回答内容的相似性都有所提高,这表明医生可能并不只是用大型语言模型来更好地表达他们自己的评估,而是直接采用了大型语言模型的评估。这一发现提出了一个问题:大型语言模型在多大程度上是支持决策而不是制定决策。此外,有少数的大型语言模型草稿在不加编辑的情况下可能会导致严重伤害或死亡。因此,我们需要新的评估和监测方法,尤其是在人们对于大型语言模型的信任度越来越高且临床医生对其的警惕性下降和依赖性增强的情况下[8]。在我们的研究中,有害内容的产生通常与对场景敏锐度认识或沟通不畅有关,而非源于生物医学知识的错误。对编码的一般生物医学知识(如医学考试成绩)进行评估是走向临床应用的第一步,但不应被视为护理患者所需的临床专业知识和敏锐度的替代品。
尽管这只是一项模拟研究,但这些早期发现提供了一个安全信号,表明我们有必要在预期的临床环境中对大型语言模型进行全面评估,以反映精确的任务和人为监督的水平[9]。展望未来,电子健康记录供应商和机构迫切需要提高评估方法的透明度。大型语言模型辅助是减轻临床医生工作量的一个很有前景的途径,但也可能会对患者的治疗效果产生下游影响。在这种情况下,有必要像对待其他医疗设备软件一样对大型语言模型进行严格的评估[10]。在医疗行业逐渐接受这些先进技术时,医生和机构必须要谨慎行事,争取在这些技术的创新潜力和对患者安全和护理质量的承诺之间取得平衡。END
Shan Chen, Marco Guevara, Shalini Moningi, Frank Hoebers, Hesham Elhalawani, Benjamin H Kann, Fallon E Chipidza, Jonathan Leeman, Hugo J W L Aerts, Timothy Miller, Guergana K Savova, Jack Gallifant, Leo A Celi, Raymond H Mak, Maryam Lustberg, Majid Afshar, Danielle S Bitterman
中文翻译仅供参考,所有内容以英文原文为准。