《“临床决策评估基准”：大语言模型在临床决策中的多维度和多粒度评估》

准确的诊断对于提供有效的医疗服务至关重要，涉及基于对患者人口统计数据、症状、病史和检查检验结果的全面分析来识别疾病和进行治疗管理。这是一个复杂的认知过程，需要广泛的医学知识、推理和经验。在数字医疗时代，构建能够自动化或在高准确度下协助临床医生完成这一过程的人工智能系统，对于降低医疗成本和增强医疗服务的可及性具有深远的影响。

随着人工智能，特别是对于大语言模型（LLMs）在临床诊断过程中的整合，为提高医疗服务的效率和可及性提供了巨大的潜力。尽管大语言模型在医疗领域展示了一些前景，但它们在临床诊断中的应用仍然未被充分探索，尤其是在需要高度复杂、患者特定的决策的现实世界临床实践中。当前的大语言模型评估往往范围狭窄，侧重于特定疾病或专业，并采用简化的诊断任务。为了弥合这一差距，本文引入了“临床决策评估基准”，这是一个基于MIMIC IV数据集开发的新颖基准，旨在全面而真实地评估大语言模型在临床诊断中的能力。该基准不仅涵盖了来自各个医学病例的多样化诊断，还包括具有临床意义的诊治识别、检查检验医嘱和药物处方任务。通过结构化的输出本体支持，“临床决策评估基准”能够实现精确且多粒度的评估，提供对大语言模型在不同临床任务上能力的深入理解。

作者对一些领先的大语言模型进行了零样本评估，以评估它们在临床决策中的熟练程度。初步结果显示了当前的大语言模型在临床环境中的潜力和局限性。这些结果为未来的研究和开发提供了宝贵的见解，也为改进大语言模型在医疗领域的应用指明了方向。“临床决策评估基准”的出现为更准确、更全面地评估大语言模型的临床诊断能力提供了重要的工具，推动了人工智能在医疗领域的应用发展。本文强调了构建更真实、更全面的基准测试的重要性，以促进人工智能在临床决策中的应用。

如需要《“临床决策评估基准”：大语言模型在临床决策中的多维度和多粒度评估》（英文，共33页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后发来email地址索取。

★ 每日鲜鸡汤 ★

The biggest disadvantage of being born into a poor family is not the lack of inheritance from the previous generation, but rather the absence of guidance on their path of growth. By the time they reach their thirties or forties and suddenly realize this, but alas, it is often too late to make up for it. 寒门最大的劣势不是父辈的积累，而是成长道路上没人指引，等到三四十岁，才幡然醒悟，可惜为时已晚，无力回天。早上好！

《“临床决策评估基准”：大语言模型在临床决策中的多维度和多粒度评估》

《知识注入式提示：评估和改进大型语言模型的临床文本数据生成》

《利用知识图谱集群检索进行推理增强的医疗预测》

《大语言模型生成医疗文本摘要的临床安全性和幻觉率的评估框架》

《“医疗决策多智能体”：医疗决策大语言模型的自适应协作》

《医学大型语言模型综述：进展、应用与挑战》