图片

确定符合临床试验条件的患者是将新药推向市场的关键瓶颈。三分之一的临床试验失败是因为他们无法招募到足够的患者,招募费用平均占试验预算的32%

 

对于患者来说,参加试验可以带来几个好处,例如获得新的疗法,加强专家医疗团队的监测,以及更好的整体健康结果。但不幸的是,94%的患者从未被医生告知他们可能有资格参加的试验。

 

图片

这是因为确定有资格参加试验的患者通常需要大量依赖人工,非常耗时。每个试验都有一长串的资格标准,每个参加试验的患者都必须完全符合这些标准。为了识别这类患者,训练有素的临床研究协调员需要人工审查数百名患者的电子病历(EHR)。超过80%的相关信息是以非结构化文本的形式存储,例如病程记录、电子邮件、放射学报告和基因检测,因而难以自动处理。因此,癌症三期试验的资格筛选对每位患者可能需要花费近一个小时。

 

图片

由于其独特的语法和术语,传统的自然语言处理(NLP)方法在临床文本方面的成功很有限。大型语言模型(LLM)代表了自然语言处理能力的一个关键转折点,故此为加速患者招募提供了一种很有前景的方法。

 

这篇论文探讨了利用大语言模型 (LLM) 进行零样本临床试验患者匹配的可行性,旨在解决当前临床试验患者招募流程中存在的效率问题。本文提出了一种基于大语言模型的零样本系统,该系统可以根据患者的非结构化临床文本记录,评估患者是否符合临床试验的纳入标准。该文研究了不同的提示策略,并设计了一种新颖的两阶段检索管道,可以将大语言模型处理的标记数量减少三分之一,同时保持较高的性能。

 

图片

研究结果表明,该系统在“全国自然语言处理临床挑战赛”的队列选择赛中取得了最先进的性能,该挑战赛是目前公开可用的最大、最真实的临床试验患者匹配基准。其次,研究表明,该系统可以比现有方法快一个数量级地、更经济地提高患者匹配的数据,具有很好的成本效率。第三,通过让临床医生评估系统为每个资格决策生成的自然语言解释,本研究评估了系统的可解释性,结果表明该系统能够为97%的正确决策和75%的错误决策,输出连贯的解释。

 

图片

该系统的主要贡献在于:

 

1、实现了零样本学习,避免了昂贵的标记数据和计算资源。

 

2、提高了系统的数据效率和成本效率,能够快速匹配大量患者。

 

3、实现了可解释的匹配结果,能够生成自然语言解释以帮助医生理解匹配结果。

 

本文还讨论了未来的研究方向,包括改进临床试验资格标准的设计与应用,以及如何利用大语言模型来提高临床试验的效率和效果。

 

图片

总之,该项研究及其结果确立了使用大语言模型加速临床试验操作的可行性和有效性,为加速临床试验患者匹配提供了一种新的方法。零样本检索架构能够高效处理临床试验的复杂性,能在最小的重新配置情况下,扩展到任意试验和患者记录长度。这表明,通过精心设计的提示语和检索流程,可以在保持高性能的同时,显著降低利用大语言模型进行临床试验患者匹配所需的数据量和成本,具有重要的现实意义和应用价值。