《临床中的大型语言模型：一个综合评估基准》

本文提出并构建了一个名为“临床标杆”的综合评估基准，用于评估大型语言模型（LLMs）在临床环境中的应用。

大语言模型因其强大的自然语言处理能力，在医疗领域引起了广泛关注。然而，现有的研究多集中在封闭式问答任务上，而临床决策往往涉及开放性问题，没有预设答案选项。因此，该研究通过收集现有数据集并构建新的复杂临床任务，以更贴近真实世界临床实践的方式来评估大语言模型的性能。

研究团队首先收集了11个现有数据集，涵盖了临床语言生成、理解和推理等多种任务。此外，他们还构建了6个新的复杂临床任务数据集，包括转诊问答、治疗推荐、住院小结、患者教育、新药物的药理学问答和药物相互作用等。为了提供全面而综合的评估基准，研究团队选择了22种不同的大语言模型（包括通用大语言模型和医学专用大语言模型）在零样本和少样本设置下进行评估，使用了多种评估指标，包括准确率、ROUGE-L评分和F1分数。

研究结果显示，尽管大语言模型在封闭式问答任务上表现出色，但在开放式任务、长文档处理和新药理解等场景中表现不佳。这表明大语言模型在临床应用中仍面临挑战，尤其是在处理非结构化和开放式临床问题时。此外，本研究还邀请了医学专家对大语言模型生成的内容在事实性、完整性、偏好和安全性四个维度上进行了评估，指出了大语言模型在提供临床有用信息方面的潜力和局限性。

总之，本研究所提出和构建的“临床标杆”为评估大语言模型在临床应用中的性能提供了一个重要的基准测试平台，为开发更强大的医疗大语言模型提供了宝贵的见解和指导。未来，需要进一步研究和开发更强大的大语言模型，以更好地辅助临床决策，并确保其安全、可靠和负责任的使用。

如需要《临床中的大型语言模型：一个综合评估基准》（英文，共14页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后发来email地址索取。

★ 每日鲜鸡汤 ★

Some people are going to reject you because you shine too bright for them. That's okay they don't pay your light bill. Keep shining. 有些人会排斥你，因为你对他们来说太耀眼了。那没关系，反正他们又不给你付电费，请继续闪亮吧！早上好！

《临床中的大型语言模型：一个综合评估基准》

《人工智能在医院和诊所中的作用：21世纪的医疗转型》

《生成式人工智能在医疗卫生技术评估中的应用：机遇、挑战与政策考量》

电子书：《2024年第23届生物医学语言处理研讨会论文集》

电子书：《第六届临床自然语言处理研讨会论文集》

博士论文：《“奎厄特”：将二维图像整合成三维体积用于器官健康监测》