图片

临床证据对于支持临床实践和促进新药开发至关重要。它主要是通过对真实世界数据的回顾性分析或通过评估对人类新干预措施的前瞻性临床试验收集的。研究人员经常进行系统的综述,以巩固文献中各种研究的证据。然而,进行系统的文献综述既昂贵又耗时,平均需要五名专家在67周内分析195篇文献。此外,临床研究数据库的快速增长意味着这些已发表的临床综述中的信息很快就会过时。这种情况突出表明,迫切需要简化系统综述过程,以便从广泛的医学文献中产生系统而及时的临床证据。

图片

大语言模型(LLM)擅长信息处理和生成,在简化临床证据综合过程方面显示出良好的前景。通过向大语言模型提供任务定义和示例作为文本输入(即提示语),可以使大语言模型适应新任务,而无需重新训练模型。研究人员尝试在文献综述中采用大语言模型来完成各项任务。例如,通过利用多篇文献优化输入,大语言模型可以总结研究结果来回答医学问题。这一策略有助于减少幻觉,但当输入的研究不能充分支持提出的问题时,仍然面临挑战,这需要在文献搜索和筛选步骤中付出更多努力。此外,大语言模型在利用临床研究中发现的数值型数据进行推理时往往表现出局限性。通过提示语而使用原始论文内容生成的定性临床证据可能过于笼统、缺乏关键信息或曲解研究结果。因此,本文作者们建议开发一个大语言模型驱动的途径来帮助整个工作流程,包括制定研究问题、进行文献挖掘、提取信息和综合临床证据。这包括在整个过程中对大语言模型进行全面评估,但目前这方面的研究还不够充分。

 

图片

本项研究旨在发挥人工智能的潜力,帮助医生使用人工智能完成整个临床证据的综合过程。作者们展示了他们的方法,即“试验思维”大语言模型法是如何通过以下方式优化临床证据综合任务的:

 

1)文献搜索:利用用户提供的PICO元素(人群、干预、比较、结果),“试验思维”生成布尔查询,以有效地从PubMed等文献数据库中检索相关研究。这种方法通过结合查询生成、扩充和细化来确保全面复盖,允许用户调整查询以获得最佳结果。

图片

2)文献筛选:“试验思维”通过生成合格标准来促进检索研究的有效筛选,用户可以自定义该标准以反映特定的研究需求。大语言模型然后根据这些标准预测每项研究的合格性,使用户能够优先考虑最相关的研究。该系统根据预测的相关性对研究进行进一步排序,为进一步分析提供了清晰的层次结构。

3)数据提取:“试验思维”根据用户定义的数据字段,从非结构化文档中提取关键信息,如研究方案、参与者基线和其他相关数据点。这种结构化的提取过程确保了数据的准确性,有助于进行有效的分析。

图片

4)证据综合:“试验思维”从选定的研究中提取临床研究结果,并与用户共同合作合成高质量的临床证据。这包括将提取的数据标准化以进行荟萃分析,从而能够生成汇总分析和实现可视化,如森林图。

为了评估“试验思维”的有效性,作者们开发了一个名为“试验综述席”的基准数据集,其中包括870项临床研究和25项荟萃分析中5万多项已确定的研究。它还包括1334个研究特征和1049个研究结果的手工标注。该数据集允许对“试验思维”在系统综述过程的不同阶段的表现进行严格评估。

图片

评估结果显示了“试验思维”的如下显著优势:
1)研究搜索中的高召回率:“试验思维”始终实现了高召回率,检索PubMed中几乎所有的目标研究,均优于GPT-4和人工生成的查询。
2)卓越的筛选性能:“试验思维”在筛选方面显著优于传统的基于语言模型嵌入方法,有效地将相关研究排在不相关研究的前面。

3)改进了研究结果提取:“试验思维”在从研究文档中提取关键信息方面超过了GPT-4,在识别和提取相关数据点方面实现了更高的准确性。

图片

4)人们首选综合证据:评估人员始终偏爱和首选“试验思维”的综合证据,而不是GPT-4的输出,这凸显了该系统生成更全面、更综合、更准确的临床证据的能力。

总之,“试验思维”代表了临床证据综合的一个重大进步。通过有效整合大语言模型和人类监督,“试验思维”加快了高质量临床证据的产生,最终提高了临床研究的效率和可靠性。这种方法在提高临床决策的速度和准确性以及推进新药开发方面具有巨大的潜力。