《“临床试验期大语言模型”: 利用大语言模型进行临床试验期转换预测》

临床试验系统地评估了医疗干预对人类受试者的安全性和有效性，分为一、二和三期，以及最终监管部门的批准。在监管过程中药物的高损耗在文献中都有充分的记载。例如，60-70%的二期试验和30-40%的三期试验在下一阶段失败。这导致将药物推向市场的成本非常高，估计从6亿美元到28亿美元不等。

试验方案的设计对试验结果有显著影响，但现有工作主要依赖于人工选择的特征，且数据集缺乏正确的期转换标注。

现有研究也主要集中在通过药物毒性和副作用，改进试验设计，量化试验终止风险等方面来预测临床试验结果，但这些方法存在数据不全、特征选择不够全面等问题。

本研究主要探讨从试验方案到临床试验阶段转换的预测，这种对临床试验成功的早期预测，有助于试验设计者对设计做出更明智的决策，并有效地分配资源。

本项研究采用了两种模型来预测临床试验的期转换：

●BERT+RF模型：结合了临床BERT模型和随机森林（RF）分类器，通过嵌入临床试验的不同属性（如名称、描述、招募标准等），然后训练一个随机森林分类器。

●“临床试验期大语言模型”模型：基于GPT-3.5 Turbo的模型，通过指令微调来预测期转换。该模型使用了特定的提示语来指导模型的任务，并确保输出为二元格式。

研究人员在“期转换”数据集上评估了两种模型的性能，并与现有的模型进行了比较。结果显示，“临床试验期大语言模型”在预测临床试验期转换方面表现优于其它模型。此外，研究人员还进行了消融研究，探讨了训练数据的来源和模型训练方式对预测性能的影响。

本研究的主要贡献如下：

●“临床试验期大语言模型”模型：研究人员提出了“临床试验期大语言模型”，这是首个基于大语言模型的模型，用于临床试验结果预测。该模型通过分析试验的原始方案文本，无需人工选择特征，即可预测临床试验的期转换。

●“期转换”数据集：研究人员构建了一个新的开源数据集，用于临床试验结果预测。该数据集通过跟踪试验的监管过程进展，为临床试验期转换预测提供了基准。 

●预测性能：“临床试验期大语言模型”在预测所有阶段的试验期转换方面达到了67%的准确率，在预测从第三期到最终批准的转换方面，准确率更是达到了75%。 

总之，本研究提出的“临床试验期大语言模型”为临床试验期转换预测提供了一种新的方法，通过利用大语言模型的强大能力，克服了现有方法的局限性，可以在不依赖人工选择特征的情况下，自动从临床试验方案中提取相关信息。这一方法不仅提高了预测的准确性，也为临床试验设计和资源分配提供了有价值的参考，将有助于提高药物研发效率，降低成本，加速新药上市。

《“临床试验期大语言模型”: 利用大语言模型进行临床试验期转换预测》

电子书：《2024年第23届生物医学语言处理研讨会论文集》

电子书：《第六届临床自然语言处理研讨会论文集》

《临床中的大型语言模型：一个综合评估基准》

博士论文：《“奎厄特”：将二维图像整合成三维体积用于器官健康监测》

《“OCT立方”: 可改善跨数据集、跨疾病、跨设备和跨模态分析的光学相干断层扫描的三维基础模型》

电子书：《可持续医疗保健体系的数字健康和信息学创新：2024年欧洲医学信息学大会论文集》

电子书：《2024年医学虚拟成像试验大会论文集》

《迈得兹大语言模型：利用大语言模型进行多模态医疗时间序列分析》

电子书：《人工智能在医疗中的应用：现状与未来展望》