图片

本文探讨了利用大型语言模型 (LLM) 生成合成临床文本数据以克服临床自然语言处理 (NLP) 中挑战性的问题。临床自然语言处理面临着医学术语复杂、临床语境多样等难题,直接应用大语言模型存在隐私问题和资源消耗过大的限制。该研究提出了一种创新的、资源高效的方法,称之为“基于知识的临床数据生成框架”,它将知识注入到提示语中,从而改进合成数据的质量和多样性。

文章首先分析了临床自然语言处理领域的挑战。临床文本通常包含大量的缩写和专业术语,这给标准的自然语言处理模型带来了困难。虽然大语言模型在处理这些问题上展现出潜力,但直接应用大语言模型存在两个主要问题:一是计算资源消耗巨大,推理成本高昂;二是涉及敏感的病人信息,存在隐私和合规风险。因此,利用大语言模型生成合成训练数据成为一个有前景的解决方案,它可以在资源效率和数据隐私方面取得平衡。

图片

然而,直接将训练于普通文本的大语言模型应用于生成高质量的临床数据存在挑战。现有方法通常采用普通且简单的提示语,无法充分抓取领域特有的知识,导致生成的合成数据质量不高,存在数据分布偏移和多样性不足的问题。文章通过中心矩离差 (CMD) 和对实体数量及频率的分析,量化了现有方法的数据分布偏移和多样性不足。实验结果表明,现有方法生成的合成数据与真实数据存在显著差异,并且缺乏多样性,生成的实例中只有少数实体和关系被频繁提及。
为了解决这些问题,文章提出了“基于知识的临床数据生成框架”。该框架采用了一种知识注入式的方法,将临床知识融入到大语言模型的提示中,从而提高合成数据的质量。该方法主要包括两个步骤:临床知识提取和知识注入式数据生成。

图片

在临床知识提取阶段,“基于知识的临床数据生成框架”从两个来源提取临床知识:非参数型的知识图谱 (KG) 和参数型的大语言模型。从知识图谱中,该框架提取临床实体和关系作为临床主题;从大语言模型中,该框架通过精心设计的提示,提取临床实体以及临床写作风格。 这两种方法相结合,确保了生成的主题既准确又多样化。选择iBKH作为知识图谱,利用其丰富的医学概念和关系来生成临床主题。同时,利用ChatGPT等大语言模型来获取补充的临床主题和写作风格建议。
在知识注入式数据生成阶段,该框架将提取到的临床主题和写作风格动态地组合到提示语中,引导大语言模型生成合成数据。这种方法既保证了临床相关性,又提高了数据多样性。文章特别强调了这种方法的简洁性和灵活性,它可以轻松地应用于各种临床自然语言处理任务。

图片

本文对“基于知识的临床数据生成框架”进行了全面的评估。实验涵盖了8个临床自然语言处理任务和18个数据集,包括文本分类、关系抽取、自然语言推理、事实验证、问答、句子相似度和命名实体识别等。将该框架与多种基线方法进行了比较,包括几种数据增强方法和直接使用大语言模型生成数据的方法。实验结果表明,“基于知识的临床数据生成框架”在各个任务上都取得了显著的性能提升 (平均提升7.7%-8.7%),并且有效地缩小了合成数据与真实数据之间的分布差异,提高了生成样本的多样性。实验还考察了不同大语言模型和不同大小的合成数据集对该框架性能的影响。
总之,本文提出了一种新颖的、基于知识注入式提示的临床文本数据生成框架。该框架通过结合知识图谱和大语言模型的优势,有效地解决了现有方法中数据分布偏移和多样性不足的问题,显著提高了合成数据的质量,为临床自然语言处理任务提供了高质量的训练数据。该研究的贡献在于提出了一种通用的、资源高效的临床文本数据生成方法,并通过大量的实验验证了其有效性。其代码也已公开,方便其他研究人员进行复现和改进。未来研究可以进一步探索如何改进知识提取方法,以及如何更好地利用不同类型的临床知识来提高合成数据的质量。

如需要《知识注入式提示:评估和改进大型语言模型的临床文本数据生成》(英文,共28页)请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后发来email地址索取。

图片


图片


图片

★ 每日鲜鸡汤  ★

Don't overthink,just take action. Even falling spectacularly is better than aimless hesitation. 别想太多,行动起来,纵然华丽地跌倒,也胜过无谓的徘徊。早上好!

图片