《基于大语言模型的生成式人工智能医学实体数据抽取器》

人工智能（AI）在医疗保健中的整合，特别是通过电子病历的整合，标志着医疗技术的重大进步。这一进展对于加强医疗服务和改善患者预后至关重要，旨在有效地从电子病历中提取和分析患者信息。电子病历既包含编码诊断和药物等结构化数据，也包括临床叙述和记录在内的非结构化数据。虽然电子病历中的结构化数据输入提供了许多好处，并且越来越普遍，但由于增加了文书负担，临床医生的实际使用仍然有限。

因此，医务人员通常更喜欢通过临床叙述来记录患者信息。这些叙述富含详细的患者信息，对于提高诊断和预后模型的准确性非常重要。然而，这些叙述的自由文本格式带来了一个重大挑战：它们不容易进行计算分析，而计算分析通常需要结构化数据。临床文书的内在复杂性（包括模糊的医学术语和不标准的短语结构等不规则之处）进一步加剧了这一挑战。尽管自然语言处理（NLP）在医疗环境中具有理解医学语言的强大能力，但这种不规则性使得标准的自然语言处理工具在应用于临床文书时难以有效，这需要特定领域的专业知识来进行准确的标注。

然而，将大语言模型（LLM）集成到医疗保健领域并非没有其局限，特别是由于临床信息的保密要求。这些要求严重限制了公共数据集的可用性和利用率，而公共数据集对于训练和微调大语言模型极为重要。医疗保健领域对安全和合规的IT系统集成的要求进一步加剧了这一局限。患者数据的敏感性要求采取强有力的安全措施，来防止未经授权的访问，确保数据隐私。此外，医疗IT系统通常涉及复杂多样的软件生态系统，要求大语言模型具有可适应性，并能与各种现有平台和数据格式互操作。这便导致这些资源的供应和分发受限，从而使得临床自然语言处理数据集的创建受到限制，且只针对于特定的医疗机构。每个医疗机构往往拥有独特的、特定领域的数据，这些数据与其他机构持有的数据不同。

因此，这种情况产生了一系列不同的、特定于机构的数据集，使医疗保健领域广泛适用的自然语言处理工具的开发变得异常复杂。这类没有整合这些元素的模型通常仅限于在临床实践过程中自然生成标签的任务，例如预测国际疾病分类代码或死亡风险评估。

为了应对这些挑战，有一种新兴趋势，迫切需要开发专门为医疗保健行业量身定制的人工智能支持的下一代生成式预训练转换模型（GPT）或大语言模型。这些先进的模型不仅能提供准确无误的医疗信息，还解决了在敏感的医疗环境中部署时固有的伦理、法律和实践问题。

本文提出利用大语言模型开发一种先进的命名实体识别(NER)系统，叫“基于大语言模型的生成式人工智能医学实体数据抽取器”。该系统旨在精确地从医学对话和口述中提取重要信息。预期结果是显著提高填写结构化医疗表格的效率，重点是可靠性、一致性和无缝的操作工作流。“基于人工智能的医学实体数据抽取器”的扩展远不只是技术集成，还包括对现实世界的关键影响，如准确性、处理速度、用户满意度、合规性，以及解决方案与现有医疗系统的顺利集成。

本文的内容结构如下：

第一部分是引言。第二部分回顾了将大语言模型整合到医疗保健行业进行信息提取的相关文献，重点介绍了用于临床自然语言处理应用的提示语工程和预训练大语言模型。第三部分详细介绍了所提出的新模型。第四部分介绍了该模型的评估结果。最后，第五部分讨论了本文的结论和未来工作的方向。

《基于大语言模型的生成式人工智能医学实体数据抽取器》

《通过自然语言处理利用大型语言模型提供可解释的认知衰退的机器学习实时预测》

《慢性病患者轨迹的数据驱动型亚组划分：来自腰痛的证据》

电子书：《可持续医疗保健体系的数字健康和信息学创新：2024年欧洲医学信息学大会论文集》

电子书：《2024年医学虚拟成像试验大会论文集》

《“临床试验期大语言模型”: 利用大语言模型进行临床试验期转换预测》

电子书：《信息技术在医疗保健中的应用》

谷歌大模型下场，FDA完成首批，这个AI赛道起飞在即

《用于生成患者友好型医疗报告的智能体型大语言模型工作流》

《“玛拉德”：利用检索增强生成技术的大语言模型驱动的多智能体协同用于药物警戒》