图片

本文研究了大视觉语言模型(LVLM)在医学领域的应用,并针对其存在的幻觉问题和数据不平衡问题提出了两种提示策略,以提升模型对病理诊断的准确性。

 

大视觉语言模型和视觉问答

 

大视觉语言模型是基于大语言模型(LLM)构建的,通过视觉编码器将图像特征转换为大语言模型可理解的文本特征,从而实现视觉和语言的融合。“视觉问答”是大视觉语言模型的重要技能,用于评估模型对图像内容的理解和生成能力。

 

图片

大视觉语言模型视觉问答的幻觉问题

 

幻觉是指大视觉语言模型生成的文本内容与输入图像不一致,例如错误地识别图像中不存在的事物或属性。幻觉问题主要由以下原因造成:

 

●训练数据偏差:数据集中某些类别的样本数量较少,导致模型难以学习到这些类别的特征。

 

●视觉特征缺失:视觉编码器主要关注显著特征,而忽略了细粒度特征,导致模型无法识别某些细微病变。

 

●大语言模型解码策略:模型在解码过程中过度依赖训练文本中的知识,导致无法准确理解图像内容。

 

图片

缓解大视觉语言模型视觉问答幻觉的策略

 

●提示工程:通过设计更具引导性的提示信息,帮助模型更好地理解图像内容和问题意图。

 

●模型改进:通过改进视觉编码器、大语言模型解码策略等方法,提升模型的鲁棒性和准确性。

 

本文提出的方法

 

本文针对大视觉语言模型在医学领域应用中存在的幻觉问题和数据不平衡问题,提出了两种策略:

 

●提供病理解释:在提示信息中加入对所查询病理的详细解释,包括病理的定义、图像特征等信息,帮助模型更好地理解病理特征。

 

●引入弱学习器:训练一个小型图像分类器作为辅助模型,用于识别图像中不存在的事物,并将其预测结果作为参考信息加入提示信息中,帮助模型抑制错误预测。

 

图片

实验结果

 

本文在两个数据集上进行了实验,结果表明:

 

●提供病理解释可以有效提升模型对少数类别病理的诊断准确性,F1分数最高提升0.27

 

●引入弱学习器可以有效降低模型的误报率,F1分数进一步提升。

 

●弱学习器提示策略可以应用于更广泛的大视觉语言模型领域,有效降低模型的漏检率,召回率提升约0.07

 

本文提出的策略可以有效提升大视觉语言模型在医学领域的诊断准确性,并具有以下优势:

 

●无需模型训练:相比于模型改进方法,提示策略无需对模型进行额外训练,可以节省计算资源。

 

●易于实现:提示策略的实现相对简单,可以快速应用于不同的大视觉语言模型。

 

图片

总之,本文的创新点在于将提示工程与弱学习器相结合,为医学大视觉语言模型的诊断能力提升提供了一种新的思路和解决方案。该方法不仅有效地解决了幻觉问题和少数类病理学习困难,而且成本低廉,易于实现。本文所提供的有价值的见解和策略,将为医疗影像分析和诊断领域的发展提供新的技术支持,有望推动医学影像诊断的智能化发展。