图片

本文综述了医疗保健领域合成数据生成方法的应用和效果,重点关注了不同类型医疗数据(包括表格数据、影像数据、放射组学数据、时间序列数据和组学数据)的生成方法和开源工具,文章还探讨了多模态合成数据生成方法。

 

随着数字医疗技术(如电子病历、可穿戴健康设备、基因组测序、医学影像、移动健康App和远程医疗等)的快速发展,每天都会产生大量数据。这些数据可以通过高级分析和人工智能(AI)来显著改善医疗保健结果。然而,患者数据的敏感性限制了其可访问性,并给研究和开发带来了巨大障碍。

 

图片

合成数据是一种人工生成的数据,可以模拟真实世界数据,而不会泄露个人的身份信息。因此,合成数据提供了一种独特的方式,可以在保护患者隐私的同时利用丰富的医疗健康信息,为医疗研究和临床决策提供支持,并遵守美国健康保险可携带及与责任法案 (HIPAA) 或欧洲通用数据保护条例 (GDPR) 等法规。此外,合成数据还可以解决数据稀缺问题,帮助训练和验证AI算法,推动个性化医疗和精准医疗的发展。因此,合成数据在医疗保健中具有独特的价值。

 

图片

本研究采用了系统评价的方法,通过自动化脚本检索了2015年至2024年间的相关文献,并遵循PRISMA流程进行研究识别、筛选、评估和纳入。
研究结果显示,从2015年到2024年,合成数据生成技术在医疗保健领域的研究数量显著增加。深度学习方法在合成数据生成中占主导地位,72.6%的研究使用了基于深度学习的方法,其次是统计方法、机器学习和概率方法。Python是实现这些生成器最常用的编程语言,占比75.3%

 

图片

尽管合成数据有诸多优势和应用,但也存在一些需要解决的问题,如:

 

●如何确保合成数据质量和真实性。

 

●如何避免合成数据中出现偏差。

 

●如何评估合成数据的可识别性风险。

 

本综述也指出,合成数据生成技术在医疗保健领域的发展迅速,对于训练AI驱动的诊断和预测模型至关重要。未来的研究需要继续探索这些技术,特别是提高合成数据的准确性、可靠性和伦理性,以确保它们在现实世界医疗环境中的适用性和更多应用,从而带来更好的患者结果和更高效的医疗保健体系。

图片

总之,合成数据生成已成为克服数据稀缺和隐私问题挑战的一种具有广泛应用前景的解决方案,它可以解决在无偏数据上训练人工智能 (AI) 算法的需求,这些数据具有足够的样本量和统计效力。本文对医疗保健中合成数据生成方法进行了综合分析,为相关人员提供了合成数据生成方法的全面了解,并提供了开源工具和合成数据库,以推动创新并更有效地解决各种医疗保健领域的常见挑战,以及提高合成数据在目标医疗研究和医疗实践中的影响。

 

图片

本研究工作得到了欧盟委员会在FAITH项目下的资金支持。