《X光胸片智能体：用于胸部X光片判读的、具有不确定性感知的放射学报告的视觉语言模型》

医学领域包括通过分析患者病史、评估症状、解读医学扫描以及考虑医务人员可用的任何其它相关数据来诊断疾病和病症的过程。医学诊断涉及综合评估，将临床专业知识与医疗技术的最新进展相结合，以确保为患者制定准确而有效的治疗方案。

X光通常是最常用的影像学检查。全世界每年进行20亿次胸部X光检查。仅在英国，NHS就进行了2000多万次扫描，在2022年4月至2023年3月期间进行了2190万次X光检查，是第二种常见的成像检查超声波的两倍多，同期的超声检查为1020万次。特别是，胸部X光检查是全科医生最常要求的检查，要求的次数比上一个报告期增加了15.4%。

在英国，由于人口老龄化和越来越多的并发症，NHS面临着巨大的压力，导致医生开出的检查单的数量大幅增加。人工智能自动化可以简化工作流，解决患者检查和等候检查结果的排队问题，并减轻医务人员的认知负荷。大型多模态模型已经证明了其先进的认知推理和小样本多模态学习潜力。医学固有的多模态特性，结合了扫描和基于文本的病史来撰写报告，使其有利于从人工智能能力的这些最新飞跃中受益。特别是，探索视觉语言模型在胸部X光报告工作流中的应用。

该项目评估了公开可用的、最先进的、用于胸部X光片判读的基础视觉语言模型，涉及多个数据集和基准。他们使用线性探针来评估各种组件的性能，包括由斯坦福大学与Stability AI合作开发的“胸部x光片诊断智能体”的视觉转换器和Q-former，这两个组件在许多不同的数据集上都优于行业标准的“火炬X光视觉”模型，显示出强大的泛化能力。重要的是，他们发现视觉语言模型经常产生幻觉，这会减缓临床判读。

基于这些发现，他们开发了一种基于智能体的视觉语言方法，用于利用“胸部x光片诊断智能体”的线性探针和BioViL-T的短语基础工具来生成报告，以提示语言模型生成具有不确定性感知的放射学报告，并根据其可能性对病理进行定位和描述。

他们通过开发一个评估平台，与呼吸专科医生一起进行用户研究，利用自然语言处理指标、胸部X光基准（标杆）和临床评估，彻底评估他们的视觉语言智能体。他们的研究结果显示，人工智能生成的报告在准确性、可解释性和安全性方面有了相当大的提高。他们强调了分别分析正常和异常扫描结果的重要性。最后，他们强调需要更大的配对(扫描和报告)数据集以及数据增强来解决这些视觉大语言模型中出现的过拟合问题。

本项目的目标可归纳如下：

●了解和评估用于胸部X光片判读的最新视觉大语言模型。

●与临床医生合作，了解这些视觉语言模型的进入障碍或缺点。

●在数据和计算限制范围内解决最新的在静态胸部X光片判读（即没有事先扫描进行比较）方面的不足，重点是提高临床可解释性。

本研究的新贡献包括：

●不确定性感知的放射学报告，从而提高所生成报告的临床可解释性。

●利用线性探针在各种下游任务上彻底分析大型视觉语言模型，以找到整个架构的性能瓶颈。

●将基础模型中的视觉编码器用作基于智能体的放射学报告工作流中的工具。

●分析从特定领域到大型通用模型的各种语言模型，用于医疗智能体工作流中的报告生成。

●利用支持短语基础的视觉语言模型（BioViL-T）作为医疗智能体工作流中的病理定位工具。

该项目凸显和强调了视觉语言模型在医学成像中的潜力，以及在人工智能生成的报告中解决不确定性和可解释性问题的重要性；并指出未来的工作包括扩展数据集，探索替代架构，以及将X光胸片智能体集成到临床工作流中。

总之，该研究报告全面回顾了用于胸部X光片判读的视觉语言模型的最新进展，并提出了一种基于智能体的新方法来生成不确定性感知的放射学报告。

《X光胸片智能体：用于胸部X光片判读的、具有不确定性感知的放射学报告的视觉语言模型》

《知识注入式提示：评估和改进大型语言模型的临床文本数据生成》

《“临床决策评估基准”：大语言模型在临床决策中的多维度和多粒度评估》

《利用知识图谱集群检索进行推理增强的医疗预测》

《大语言模型生成医疗文本摘要的临床安全性和幻觉率的评估框架》

《“医疗决策多智能体”：医疗决策大语言模型的自适应协作》

《“医疗决策多智能体”：医疗决策大语言模型的自适应协作》

《医学大型语言模型综述：进展、应用与挑战》

《“健康提问”：揭示大语言模型链在医疗对话中的提问能力》

《“迈戴特”：利用少样本元学习创建医疗设备数字孪生》