《大语言模型生成医疗文本摘要的临床安全性和幻觉率的评估框架》

随着大语言模型（LLMs）在医疗领域的应用日益广泛，尤其是在医疗文本摘要方面，其输出的准确性和安全性至关重要。本文提出了一种新的评估框架，旨在解决大语言模型在医疗文本摘要中的临床安全性和幻觉率问题。

在医疗环境中，临床文书的准确性至关重要。医生需要花费大量时间进行文书编写，而长时间与电子病历互动可能会增加认知负荷并导致职业倦怠。大语言模型的应用有望减轻这一负担，但其在临床文档编写中的错误可能引发一系列问题，包括误导性细节、诊断延误和患者焦虑。因此，建立一种评估大语言模型在医疗文本摘要中安全性和准确性的框架显得尤为重要。

大语言模型在自动化医疗文本编写、提高临床工作流程效率和优化患者诊治方面展现出了巨大的潜力。然而，大语言模型在生成医疗摘要时可能出现的错误，如幻觉（即生成输入数据中不存在的信息）和遗漏（错失原始文档中的相关信息）。这些错误可能导致医疗记录不准确，影响患者与临床医生之间的沟通，进而危及患者安全。因此，本文的研究对于确保大语言模型在医疗领域的安全应用具有重要意义。

目前的临床评估框架虽对临床错误进行分类，但未评估错误对下游的危害。同时，大语言模型的评估方法多集中在问答类测试，未涉及医疗文本总结概括能力，且已有的总结概括能力评估方法也未考虑临床交互的细节。

本研究旨在解决以下问题：

●对大语言模型在临床文档上下文中的错误进行分类。

●建立用于实时使用阶段的临床安全指标。

●提出一个名为“克里奥拉”的框架，用于评估错误的安全风险。

本文提出的框架包括多个组件，旨在全面评估大语言模型在医学文本摘要中的安全性和准确性。框架的核心概念是“临床医生参与”。这些组件包括：

1、幻觉和遗漏分类：将大语言模型的错误分为幻觉和遗漏两类，并对其进行详细分类和量化。

2、实验结构：设计了一种实验结构，用于比较不同大语言模型在文档生成管道中的输出。

3、临床安全框架：设计了一种用于评估大语言模型输出潜在危害的临床安全框架。

4、图形用户界面（GUI）：开发了一个GUI，用于执行和评估上述所有步骤。

即，本文采用了一种多组件方法来评估大语言模型的幻觉。首先，通过志愿者医生对输入-输出对进行注释，来识别和分类幻觉和遗漏。其次，使用一种基于医疗设备评估框架的安全评估方法来估计错误发生的可能性及其潜在危害。最后，通过比较不同实验迭代中的错误变化，来评估框架的有效性。

实验结果表明，大语言模型在医学文本摘要中确实存在幻觉和遗漏问题。其中，幻觉主要出现在规划部分，而遗漏则可能由于摘要任务的性质（即需要从原始文本中剔除某些数据以使其简洁、相关）而更为常见。通过迭代修改和验证大语言模型，本文成功降低了幻觉和遗漏率，并展示了框架在监督人工智能管道变化中的有效性。

总之，本文提出了一种新的框架（克里奥拉），用于评估大型语言模型在医学文本摘要中的临床安全性和幻觉率。通过该框架，本文成功分析了不同提示语技术对大语言模型输出安全性的影响，并展示了如何通过迭代修改过程达到新的低幻觉和遗漏率。“克里奥拉”不仅为临床用户提供了安全保障，还为其提供了一个缓冲环境，以在迭代导致更高临床错误率时保护用户和患者免受伤害。本文认为，“克里奥拉”可以作为各类相关机构的治理和临床安全评估模板，并进一步赋能临床医生成为在临床实践中部署大语言模型的关键利害相关方。

如需要《大语言模型生成医疗文本摘要的临床安全性和幻觉率的评估框架》（英文，共26页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后发来email地址索取。

★ 每日鲜鸡汤 ★

The only things in this world that come easily and effortlessly are poverty and aging. Everything else requires effort. 这个世界能轻而易举、毫不费力做到的，只有贫穷和衰老，其它的都需要努力。早上好！

《大语言模型生成医疗文本摘要的临床安全性和幻觉率的评估框架》

《“医疗决策多智能体”：医疗决策大语言模型的自适应协作》

《医学大型语言模型综述：进展、应用与挑战》

《“健康提问”：揭示大语言模型链在医疗对话中的提问能力》

《“迈戴特”：利用少样本元学习创建医疗设备数字孪生》

《公众健康FHIR®实施指南》