图片

临床试验系统地评估了医疗干预对人类受试者的安全性和有效性,分为一、二和三期,以及最终监管部门的批准。在监管过程中药物的高损耗在文献中都有充分的记载。例如,60-70%的二期试验和30-40%的三期试验在下一阶段失败。这导致将药物推向市场的成本非常高,估计从6亿美元到28亿美元不等。

 

试验方案的设计对试验结果有显著影响,但现有工作主要依赖于人工选择的特征,且数据集缺乏正确的期转换标注。

 

现有研究也主要集中在通过药物毒性和副作用,改进试验设计,量化试验终止风险等方面来预测临床试验结果,但这些方法存在数据不全、特征选择不够全面等问题。

 

图片

本研究主要探讨从试验方案到临床试验阶段转换的预测,这种对临床试验成功的早期预测,有助于试验设计者对设计做出更明智的决策,并有效地分配资源。

 

本项研究采用了两种模型来预测临床试验的期转换:

 

BERT+RF模型:结合了临床BERT模型和随机森林(RF)分类器,通过嵌入临床试验的不同属性(如名称、描述、招募标准等),然后训练一个随机森林分类器。

 

临床试验期大语言模型模型:基于GPT-3.5 Turbo的模型,通过指令微调来预测期转换。该模型使用了特定的提示语来指导模型的任务,并确保输出为二元格式。

 

研究人员在期转换数据集上评估了两种模型的性能,并与现有的模型进行了比较。结果显示,临床试验期大语言模型在预测临床试验期转换方面表现优于其它模型。此外,研究人员还进行了消融研究,探讨了训练数据的来源和模型训练方式对预测性能的影响。

 

图片

本研究的主要贡献如下:
临床试验期大语言模型模型:研究人员提出了临床试验期大语言模型,这是首个基于大语言模型的模型,用于临床试验结果预测。该模型通过分析试验的原始方案文本,无需人工选择特征,即可预测临床试验的期转换。

 

期转换数据集:研究人员构建了一个新的开源数据集,用于临床试验结果预测。该数据集通过跟踪试验的监管过程进展,为临床试验期转换预测提供了基准。

 

●预测性能:临床试验期大语言模型在预测所有阶段的试验期转换方面达到了67%的准确率,在预测从第三期到最终批准的转换方面,准确率更是达到了75%

 

图片

总之,本研究提出的临床试验期大语言模型为临床试验期转换预测提供了一种新的方法,通过利用大语言模型的强大能力,克服了现有方法的局限性,可以在不依赖人工选择特征的情况下,自动从临床试验方案中提取相关信息。这一方法不仅提高了预测的准确性,也为临床试验设计和资源分配提供了有价值的参考,将有助于提高药物研发效率,降低成本,加速新药上市。