图片

本文提出了一个名为“麦迪卡尔”的框架,旨在通过结合大型语言模型(LLM)和知识图谱(KG)来提升电子病历(EMR)的临床诊断能力。“麦迪卡尔”的核心创新点在于为医疗记录中的实体分配加权重要性,并采用类似残差网络的方法,将大语言模型的初步诊断结果与知识图谱的搜索结果合并,通过基于路径的重排算法和填空式提示语模板进一步优化诊断过程。

 

电子病历(EMR)是患者医疗和健康信息的数字化记录,在现代医疗保健体系中发挥着重要作用。然而,由于电子病历的复杂性和信息冗余性,基于电子病历的临床诊断极其需要专业的医学知识和临床经验。这一需求导致了自动化方法的发展,以协助和支持临床诊断和决策。

 

图片

近年来,大型语言模型(LLMs)在各种医学领域显示出了巨大的潜力。但是,由于缺乏特定的医学知识,将大语言模型直接应用于医学领域仍然引起了人们对错误的知识和幻觉的产生之担忧。训练医学领域的大语言模型需要大量高质量的数据,而目前表现最好的大语言模型通常都是闭源的,这使得进一步的训练变得很困难。此外,考虑到医学领域知识的不断更新和迭代,对于已经训练好的大语言模型来说,更新其参数只能通过再训练来完成,这非常耗时且昂贵。

图片

作为大规模结构化知识库的经典形式,知识图谱(KG)可以提供明确的知识表示和可解释的推理路径,并且可以不断修改以进行校正或更新。因此,知识图谱成为了大语言模型的理想补充。然而,现有的大语言模型+知识图谱研究成果不能直接应用于电子病历诊断任务,主要原因如下:(1)现有的方法依赖于输入文本中的实体识别来定位知识图谱中的相应信息,但在搜索知识图谱过程中没有区分不同类型实体的贡献。(2) 他们通常将从知识图谱获得的三元组或子图谱视为直接的语境输入,或者简单地将其转换为自然语言,这很容易导致超过输入长度限制的问题,并且在遇到复杂的结构和信息上下文时,知识图谱很难理解。(3) 研究发现,当采用检索增强生成(RAG)范式时,大语言模型往往会过度依赖所提供的语境中的知识,而未能充分利用自身的内部知识,从而容易被不正确的知识所误导。

 

图片

为解决上述局限性,本文中作者提出了一个与其它传统方法不同的、简单而有效的框架,叫“麦迪卡尔”(整合知识图作为大语言模型的辅助工具)。具体来说,“麦迪卡尔”框架通过以下步骤实现:

 

1、电子病历摘要和直接诊断:首先,“麦迪卡尔”利用大语言模型对电子病历中的关键信息进行摘要和初步诊断。

 

2、候选疾病定位和重排:通过识别和匹配电子病历中的实体,并根据实体类型赋予不同的权重,更精确地在电子病历中定位可能的候选疾病。

 

3、基于路径的重排算法:通过计算疾病与电子病历中实体的最短路径距离,对候选疾病进行排序,以确定与患者信息最相关的疾病。

 

4、大语言模型和知识图谱的协同推理:将知识图谱中的信息重构为半结构化表示,并通过填空式提示语模板帮助和引导大语言模型进行更好的推理和纠错。

 

图片

本项研究的主要贡献可以概括为:(1)提出了高质量开源中文电子病历数据短缺的问题,并引入了一个开源的中文电子病历数据集。(2)提出了一种有效的方法,允许大语言模型处理信息密集和高度冗余的电子病历,以进行有效的诊断。(3)对收集到的电子病历数据集进行了广泛的实验,以证明“麦迪卡尔”的有效性。

 

图片

总之, “麦迪卡尔”框架通过创新地结合大语言模型和知识图谱的优势,有效地提高了电子病历的临床诊断能力。该方法解决了现有方法在处理复杂电子病历时的局限性,为未来医疗人工智能的发展提供了新的思路。通过引入开源中文电子病历数据集,本研究还为中文医疗人工智能研究提供了宝贵资源。“麦迪卡尔”的成功应用展示了人工智能技术在提升临床诊断效率和准确性方面的巨大潜力,有望在实际医疗环境中发挥重要作用。