图片

人工智能(AI)和机器学习(ML)的出现彻底改变了包括医疗行业在内的许多领域。这些技术有可能改变医学研究和临床实践,为诊断、治疗和患者护理提供新的途径。然而,人工智能和机器学习在医疗保健中的应用取决于具有不同模态和不同采集特性的大型高质量数据集的可得与可用性。在许多情况下,由于隐私问题、受限的数据共享策略、复杂的采集获取技术、昂贵的标注成本以及现实世界数据的有限多样性,这些数据集并不容易得到。这便导致了合成数据生成的出现,这是一种很有前途的解决方案,它利用生成式模型来创建模拟真实世界数据集的人造数据。

图片

合成数据可以用于数据科学和机器学习的各种关键目的,主要是促进数据共享,同时保护隐私,扩大现有数据集,促进人工智能应用的公平和公正。生成式模型是一种能够学习和捕获复杂数据分布的计算算法,能够生成与真实数据非常相似的新样本。通过利用生成对抗网络(GANs)、变分自编码器(VAEs)、扩散模型(DMs)和大语言模型(LLMs)等技术,研究人员可以跨各种模态(包括影像、文本、时间序列和表格数据)创建合成型医疗数据。本研究旨在全面了解这些生成式模型在生成医疗合成数据中的应用。
本文深入研究了三个关键方面:合成的目的、生成技术和评估方法。作者强调了合成数据在解决各种临床需求方面的潜力,并确定了当前实践中的差距,例如需要更个性化的合成方法和标准化的评估方法。此外,作者还强调根据医疗数据的独特特征定制生成方法的重要性,并呼吁采用与临床应用相关的更深入的评估方法。

图片

本研究鼓励对标和比较研究,以促进这一领域的开放和合作。从本质上讲,本文为有兴趣利用生成式模型合成医疗数据的研究人员和实践者提供了宝贵的资源。通过揭示合成医疗数据生成领域的当前实践、潜力和挑战,希望促进医疗人工智能和机器学习这一重要领域的进一步研究和创新。
本文的结构组织为不同的章节。第1章是引言。第2章概述了在不同数据类型中常见的合成应用、生成式模型和评估方法。本章中解释的概念对于理解第3章中的详细结果至关重要,其中将本综述的发现分为四个部分,每个部分侧重于特定类型的医疗数据:第3.1节的电子病历(EHR),第3.2节的生理信号,第3.3节的医学影像和第3.4节的医学文本。

图片

这种结构可详细探索每种数据类型的生成式模型的使用,让读者能全面了解合成医学数据生成的现状。第4章揭示了从被调查论文中收集的见解和结论。第5章提供了对未来研究的建议,第6章是对本文进行了总结。
总之,这篇系统综述提供了对合成医学数据生成式模型现状的全面了解,并强调了这一快速发展领域的关键挑战和机遇,是一份不可多得的有用资料。