图片

本文探讨了利用大语言模型 (LLM) 从电子病历 (EMR) 记录中自动构建生物医学知识图谱 (KG) 的方法。该研究在生物医学语言处理的背景下具有重要意义,特别是在药物发现和临床试验设计等领域。

文章首先介绍了生物医学知识图谱构建的重要性。知识图谱能够准确地识别和表示疾病、因素、治疗以及疾病共存表现等医学和生物实体之间的相互作用,这对于医学研究和临床实践至关重要。然而,传统的知识图谱构建方法通常依赖于规则系统或需要大量人工标注,费时费力。而大型语言模型的出现为自动构建知识图谱提供了新的可能性。

图片

文章回顾了相关的研究工作,包括基于规则的“塞姆瑞普”系统及其改进版本,以及利用BERT等模型进行生物医学关系提取的研究。然而,这些系统或方法大多集中在相对干净的学术语料库上,而忽略了电子病历中存在的噪声、缩写、语法错误等问题,而且这些系统通常依赖于手工制定的规则和生物医学领域知识库,限制了其灵活性和可扩展性。本文指出,现有方法在处理电子病历这种非结构化、噪声较大的数据时存在局限性。相比之下,大语言模型具有更强的自适应能力和泛化性能,能够从大规模文本数据中学习有价值的表示,而无需显式编程。

图片

为了解决上述问题,本文提出了一种端到端的机器学习解决方案,该方案利用大语言模型从电子病历记录中提取信息并构建知识图谱。电子病历记录是临床实践中产生的丰富数据源,包含了大量关于患者疾病、治疗及预后等信息。该方法首先识别与特定疾病相关的记录,然后利用预先设计的一系列问题来查询大语言模型,以提取疾病的治疗方法、危险因素和伴随症状等信息。本文特别关注了不同架构的大语言模型的性能和安全性,并对12个不同模型进行了评估。这些模型包括编码器-解码器模型、仅编码器模型和仅解码器模型等。

图片

实验结果表明,与仅编码器模型和编码器-解码器模型相比,仅解码器模型需要进一步的引导才能生成结构化的输出。为了解决这个问题,本文提出了改进的提示工程策略,包括零样本、少样本和基于指令的提示语设计,以及一种严格的输入输出格式定义,以提高仅解码器模型的性能。

本文详细描述了其数据预处理方法。数据来源于黄斑和视网膜研究所的电子病历,包含约1万份患者记录和36万条与122种眼部疾病相关的记录。由于数据隐私原因,该数据集不公开。

本文还详细阐述了关系提取的过程,包括如何根据大语言模型的回答和预设的概率阈值来确定实体之间的关系。后处理阶段则包括过滤低概率预测、去除停用词和标点符号、处理模型的不确定性输出以及合并语义相似的预测结果。

图片

实验结果以表格的形式呈现,展示了不同大语言模型在提取治疗方法、危险因素和伴随症状方面的精确率和召回率。结果表明,基于指令的提示工程策略,特别是结合本文提出的引导式提示语设计,显著提高了大语言模型的性能,尤其是在仅解码器模型上。本文以年龄相关性黄斑变性 (AMD) 为例,展示了构建的知识图谱,并对结果进行了定量和定性分析。
综上所述,本文提出了一种基于大语言模型的端到端解决方案,用于从电子病历记录中自动构建生物医学知识图谱。通过全面评估不同架构的模型性能并设计指导性提示语来优化关系抽取任务,该研究为生物医学知识图谱的自动化构建提供了新的思路和方法。未来研究将继续探索如何进一步提高模型的准确性和效率,以推动医学研究和临床实践的发展。

如需要《基于大语言模型的生物医学知识图谱构建:从电子病历记录中提取信息》(英文,23页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后发来email地址索取。

图片


图片


图片

★ 每日鲜鸡汤  ★

Step by step. Day by day. Future depends on what you do today. 循序渐进,日复一日,未来取决于你今天的所作所为。早上好!

图片