图片

虽然曾经被认为是早期人工智能(AI)研究的遗物,但知识图谱(KGs)近年来经历了惊人的复苏。知识图谱是符号人工智能的基础,由医疗、金融、商业、教育等多个领域的相互关联的知识组成。尤其是在医学领域,知识图谱已经成为不可或缺的工具。
与传统的关系型数据库相比,知识图谱提供了许多优势,主要源于其多样化的节点阵列以及在它们之间建立连接的能力。这种多功能性使其适用于从搜索引擎优化到推荐系统、知识发现和研究促进的各种应用。然而,尽管它具有深远的意义,但构建知识图谱的过程本质上是劳动密集型的,尤其是在复杂的医学领域。

 

图片

知识图谱本质上是一个多图,其特点是有向性、有标签和多样性。就其核心而言,知识图谱由事实组成,通常表示为三元组,每个三元组由一个关系和两个节点组成。由于知识图谱由数百万到数十亿个这样的三元组组成,它们的聚合在信息发现、数据集成和有效管理方面具有巨大的潜力。然而,制作知识图谱,特别是在医学领域,由于医学概念和它们之间关系的复杂性,带来了巨大的挑战。使这些挑战更加复杂的是非结构化医疗数据的普遍存在,这进一步使知识图谱创建过程复杂化。

 

近年来,出现了各种图谱创建方法,从自动到半自动和手动方法。虽然这些方法解决了一些难题。然而,它们往往存在重大缺陷,例如尽管提供了图解方法,但缺乏用于图谱创建的标准化平台或代码。此外,一些方法利用医院记录来生成节点和关系,它们忽略了数据增强的潜在好处,导致图谱不完整。此外,目前还没有能够实时生成图谱的有前景的技术,这进一步阻碍了这一过程。

 

图片

为了应对这些挑战,本文作者提出的医学知识图谱自动化(M-KGA)方法通过实时无缝处理结构化和非结构化数据,从而有效地解决了这些障碍。预处理步骤包括使用专为科学和生物医学内容量身定制的SciSpacy库从非结构化数据中提取基于命名实体识别(NER)的关键字。随后,在使用Neo4j的查询语言“Cypher”快速生成知识图之前,知识过滤阶段会消除重复和无关的术语。此外,作者利用“生物门户”(bioportal)进行数据增强,通过整合元数据(如定义、同义词和层次结构)来丰富医学术语的语义。在数据增强之后,语义信息过滤阶段会删除重复项和非英语术语,从而提高知识图谱的质量。

 

为了揭示医学术语之间隐藏的联系和关联,作者利用在MIMIC-III数据集上训练的预训练上下文词嵌入模型“临床BERT”。这有助于在数据中发现有价值的见解,并有助于创建综合而全面的知识图谱。作者提出了基于聚类和基于节点的比较方法,通过利用知识图中的“临床BERT”来揭示隐藏的关系。

图片

此外,本文提出的方法使用户能够轻松导航复杂特征并生成自主知识图。因此,用户可以根据输入数据有效地生成知识图谱,从而消除了长时间等待的必要。此外,用户可以访问生成的文件以进行进一步的研究和分析。最终,通过他们的方法发现隐藏的联系有助于临床医生更深入地了解患者的症状。此外,该方法还使医保在识别欺诈性索费和检查医疗代码的不准确预测方面受益。

 

综上所述,该研究的贡献可以归纳如下:

 

1、提出了一种用于自动构建医学知识图的重要方法,即医学知识图自动化(M-KGA)。

 

2、利用基于节点和基于聚类的比较来完成知识图谱。

 

3、进行严格的评估,以证明他们的技术和由此产生的知识图谱的效率。

 

图片

总之,本文提出了一种新颖的方法来自动化地生成和丰富医学知识图谱,这对于医学研究和临床实践具有重要的意义。通过自动化技术,可以加速医学知识的发现和应用,提高医疗服务的质量和效率。