图片

在当今数字医疗领域,大语言模型(LLMs)已广泛应用于增强问答功能和改善患者互动体验。然而,有效的患者诊治不仅需要大语言模型能够回答患者的问题,还要求它们能够主动提出相关问题以收集全面的信息。本文提出了一种新的框架,旨在评估医疗对话中大语言模型链的提问能力。

 

该研究的背景在于,尽管大语言模型在理解和生成类似人类的文本方面表现出色,并被应用于虚拟健康助手、自动化医疗记录摘要和临床决策支持等多种医疗场景,但其在医疗对话中的提问能力仍是一个未被充分探索的领域。现有的医疗问答系统主要关注优化任务完成和应答准确性,而对于开发能够推动更具信息量的患者互动的复杂提问策略则关注较少。

 

图片

为了填补这一空白,该研究提出了一个名为“健康提问” 的新颖框架,该框架不仅评估大语言模型医疗链提出的问题的质量,还考察这些问题是否有助于获得更好的答案。研究团队实现了多种大语言模型链,包括检索增强生成、思维链和反射链,并引入了一个大语言模型评判器来评估生成问题的相关性和信息量。此外,他们还采用了互信息验证来展示问题质量与接收到的答案改进之间的关系,从而确保大语言模型医疗链能够与患者有效互动,提高诊断的准确性。

 

图片

在“健康提问”框架中,研究团队首先使用训练数据构建了一个向量化的知识库,然后利用测试数据模拟虚拟患者,并评估大语言模型链生成的问题。他们利用两个公共数据集构建了两个自定义数据集来进行评估,这两个公共数据集包含了大量的医疗对话,涵盖了广泛的症状、诊断和治疗方案。通过这种方法,研究团队能够全面评估大语言模型链在不同医疗场景中的提问能力。
在评估过程中,研究团队采用了多种指标来衡量问题的质量,包括特异性、有用性、相关性、覆盖度和流畅性。大语言模型评判器根据这些标准对每个问题进行评分,并计算互信息来分析问题质量和答案全面性之间的关系。互信息量化变量之间的共享信息,无需预测建模,从而能够准确地评估问题对答案质量的影响。

 

图片

实验结果显示,大多数大语言模型医疗链在所有评估指标上都显著优于硬编码工作流。特别是,基本的检索增强生成链在多个方面表现出明显的改进。此外,互信息分析表明,问题质量与答案质量之间存在显著的相关性,证明了“健康提问”框架的有效性。

 

该研究的贡献主要体现在三个方面:首先,它进行了关于大语言模型医疗链提问能力的首次综合研究,填补了医疗AI研究中的一个重要空白;其次,它设计了一个全面的评估框架,用于在现实患者交互场景中评估大语言模型医疗链的提问性能;最后,它开发和严格验证了一个整合了多种大语言模型链类型和传统自然语言处理(NLP)指标的评估框架。

 

图片

综上所述,本文的研究为评估大语言模型在医疗对话中的提问能力提供了有价值的方法和框架,为推动医疗人工智能的发展做出了重要贡献。