图片

生物医学研究中的假设生成过程对于揭示新的蛋白质与疾病的关联、了解发病机理和揭示治疗潜力至关重要。这一过程从现有的生物医学知识中提取证据,根据同行评审文献(PubMed3600万篇文献)中嵌入的逻辑线索统合研究结果,并整合植根于许多生物医学知识库的高可信度精选证据。最近的进展通过在文献语料库上应用文本挖掘技术以及利用基于图谱的分析来统合相关信息,进而发现新的研究途径,从而简化了这一繁重的人工劳动。尽管做出了努力,但目前的方法往往缺乏对这些碎片化数据的深入背景了解,推断和交互式探索新假设的能力有限。

 

大语言模型(LLMs)为应对这些挑战提供了新的思路,大语言模型通过跨多个学科的大量信息的训练,展示了对语境的深刻理解。在生物医学领域,大语言模型已被应用于提取患者信息、一般临床问题回答、特定领域问题回答以及在初级临床医护中的使用等任务。这些模型展示了从复杂数据集中推理和推断的能力,使其非常适合在生物医学研究中生成假设。此外,一些模型具有聊天式的交互功能,可以吸引用户并实现主题的动态探索,超越了知识库和传统网络搜索引擎的传统边界。

 

图片

尽管有潜力,大语言模型仍面临一些挑战,例如产生幻觉的信息、对可能不准确的解释表现出毫无根据的自信、缺乏可解释性,以及容易受到偏见或不恰当内容的影响。当大语言模型直接应用于假设生成或指导临床决策时,反应和预测具有很高的风险,任何错误都可能误导昂贵的实验室实验或影响影响患者健康轨迹的决策。因此,可靠和值得信赖的大语言模型应答是至关重要的,因为它们的建议必须牢牢植根于证据,明确阐述它们的推理并证实它们的主张。在这些情况下,可解释性不是奢侈品,而是理解这些模型为什么做出预测的必要条件。

 

为此,检索增强生成技术(RAG)是一个旨在最大限度地减少大语言模型幻觉的系统。通过识别和整合来自可靠和值得信赖来源的相关文本文件,检索增强生成技术将大语言模型的应答建立在证据基础上,提高其准确性和可靠性。例如,将大语言模型(ChatGPT)PubMed集成,可以识别用户查询的相关引用。该方法利用命名实体识别(NER)来连接文献,但尚未集成来自生物医学知识库或预测分析的信息。

 

图片

知识图谱(KG)已被应用于大语言模型,用于事实检查、透明推理、知识编码、改进问答和完成知识图谱等任务。通过对来自经过验证的来源的事实信息进行编码,知识图谱提高了大语言模型应答的准确性、透明度和可靠性。这些图谱中的链接预测技术利用深度学习来识别蛋白质和疾病之间以前所隐藏的关系,为湿实验室研究提供了新的机会。可解释人工智能预测的最新进展进一步提高了这些链接预测任务的透明度和可解释性,为支持生物医学假设提供了见解,使其成为可行的研究途径。这种方法提供了节点级和边缘级的深刻见解,将能够识别影响蛋白质疾病预测的关键生物医学实体和相关子图谱。这些进步确保了大语言模型生成的决策既准确又循证,大大提高了它们在生物医学研究中的适用性。
本文提出了一种新的方法,利用大语言模型和检索增强生成技术,生成可解释的生物医学假设。该方法结合了语言模型的强大生成能力和生物医学知识图谱的丰富信息,能够生成高质量的假设并提供可解释的证据。

 

图片

本文提出的方法主要包括三个步骤:

 

生物医学知识图谱构建:首先,构建一个生物医学知识图谱,该图谱包含了大量的生物医学实体、关系和概念。该图谱可以通过各种来源获取,例如生物医学文献、数据库和知识库。

 

●检索增强生成:然后,使用检索增强生成技术,根据输入的研究问题或主题,检索相关的生物医学知识图谱信息,并将其作为语言模型的输入。该技术可以帮助语言模型关注相关的信息,并生成更准确的假设。

 

●假设生成和可解释性:最后,使用大型语言模型生成假设,并通过分析语言模型的注意力机制和输出结果,提供可解释的证据和支持。该方法可以帮助研究人员了解语言模型的决策过程,并评估假设的可靠性。

 

图片

实验结果表明,该方法能够生成高质量的生物医学假设,并提供可解释的证据。与传统的假设生成方法相比,该方法能够生成更多的假设,并且假设的准确率和可解释性都有显著提高。
总之,本文提出的方法为生物医学假设生成提供了一种新的解决方案,能够生成高质量的假设并提供可解释的证据。该方法有望在生物医学研究中广泛应用,促进科学发现和创新。