图片

本文介绍了一个称之为“拉瓦-瑟吉”的多模态手术助手,旨在通过结构化的手术视频学习来理解和参与关于手术视频的对话。论文的重点在于构建一个名为“手术问答”的大型手术视频指令调优数据集,并利用它来训练“拉瓦-瑟吉”模型。

 

1、手术视频理解的挑战

 

手术作为医疗领域中包含丰富多模态信息的学科,与通常依赖静态图像(如磁共振成像和胸部 X 光片)的普通医疗诊断有很大不同。手术过程的动态性,包括复杂的动作序列和多阶段流程,无法通过单张图像完全捕捉或理解。

 

图片

2、现有的解决方案和局限性
尽管大语言模型(LLM)在医疗领域(尤其是医疗问答)中取得了显著进展,但现有的通用多模态视频模型仍然缺乏理解和参与关于手术视频的对话的能力。主要原因是缺乏手术领域的数据集。

 

3、“手术问答”数据集的构建
为了解决这个问题,作者构建了“手术问答”数据集,它包含超过102,000个手术视频-指令对,是目前同类中规模最大的数据集。该数据集是通过一个新颖的两阶段问答生成管道来构建,利用大语言模型从公开可用的手术讲座视频中以结构化的方式学习手术知识。

 

图片

3.1. 两阶段问答生成管道
这个管道将生成过程分解为两个阶段,显著降低了任务复杂性,使研究人员能够使用更经济实惠的本地部署开源大语言模型,而不是昂贵的付费大语言模型服务。它还通过限制大语言模型在问答生成过程中的信息提取,从而减轻了大语言模型的幻觉风险,提高了生成数据的整体质量。

 

3.2. 数据生成流程
数据生成流程从公开可用的手术讲座视频开始,首先使用“维斯玻X”(一个开源的语音自动识别系统)将视频中的语音内容转录成文本。然后,利用大语言模型从文本中提取结构化的信息,包括观察、推理、计划和推断。最后,利用这些提取的信息,大语言模型生成问答对,形成多轮对话。

 

图片

4、 “拉瓦-瑟吉”模型
“拉瓦-瑟吉”模型是第一个能够对手术视频进行专家级理解并回答关于手术视频的开放式问题的视频对话模型。该模型通过在“手术问答”数据集上微调一个通用视觉-语言模型来训练,仅需使用八个A100 GPU训练不到6个小时。

 

5、评估结果
作者对“拉瓦-瑟吉”模型进行了全面的评估,结果表明它在零样本手术视频问答任务中显著优于之前的模型,展现出强大的多模态对话能力。

 

图片

6、贡献
本文的主要贡献包括:

 

●“手术问答”数据集:构建了“手术问答”数据集,这是第一个大规模手术视频指令调整数据集,包含超过102,000个手术视频问答对。

 

●“拉瓦-瑟吉”模型:提出了“拉瓦-瑟吉”模型,这是第一个能够对手术视频进行专家级理解并回答关于手术视频的开放式问题的视频对话模型。

 

●开源:将公开发布手术视频指令调整数据集、模型和数据生成和训练代码,以促进手术领域的研究。

 

图片

7、未来展望
“拉瓦-瑟吉”模型的开发为手术领域的多模态对话提供了新的可能性。未来,该模型可以进一步扩展,以支持更复杂的任务,例如手术步骤的预测、手术风险的评估和手术结果的预测。

 

总之,“拉瓦-瑟吉”的出现标志着多模态手术助手的发展迈出了重要的一步。通过构建“手术问答”数据集和训练“拉瓦-瑟吉”模型,该文展示了利用结构化手术视频学习来构建能够理解和参与关于手术视频的对话的模型的潜力。这项工作为手术领域的人工智能研究开辟了新的方向,为手术视频理解和多模态对话提供了新的视角,有望在未来为外科医生和手术培训人员提供更有效的帮助,并为未来的研究和应用奠定了基础。