图片

这份题为《健康大语言模型”:通过可穿戴传感器数据进行健康预测的大语言模型》的文章提出了一项开创性的研究,探索了大语言模型(LLM)在健康领域的应用,特别是根据可穿戴传感器采集的数据预测健康结果。这项研究由麻省理工学院和谷歌研究中心的专家团队进行的。

可穿戴传感器技术改变了个人健康监测,实现了对重要生理数据的连续跟踪。可穿戴传感器数据和先进的机器学习技术的集成有望预测各种健康结果。健康大语言模型在医疗保健方面也显示出了很好的前景,最近的研究证明了它们在医疗领域任务中的良好效能。

图片

大语言模型(LLM)能够执行许多自然语言任务,但它们还远远不够完美。在健康应用中,建立和解释特定领域和非语言数据至关重要。本文研究了大语言根据情景信息(如用户人口统计数据、健康知识)和生理数据(如静息心率、睡眠时间)对健康做出推断的能力。作者们在四个公众健康数据集上对12个最先进的大语言模型进行了全面评估,并采用了提示语和微调技术。他们的实验涵盖了心理健康、活动、代谢和睡眠评估中的10项消费者健康预测任务。他们的微调模型“健康羊驼”表现出与更大的模型(GPT-3.5GPT-4GeminiPro)相当的性能,在10项任务中有8项实现了最佳性能。消融实验凸显了上下文增强策略的有效性。值得注意的是,作者们观察到,他们的情景增强可以使性能提高23.8%。虽然构建情景丰富的提示语(结合用户语境、健康知识和时间信息)表现出来了协同性改进,但在提示语中包含健康知识内容则显著提高了整体效能。

图片

大语言模型(LLM)在各种文本生成和知识检索任务中的表现提供了广泛的应用机会。然而,在健康等敏感领域,它们的真正能力和局限性在很大程度上仍未得到很好的探索,尤其是在利用可穿戴传感器生成的多种多模态时间序列数据时。与静态文本不同,由于其高维性、非线性关系和连续性,这些数据给大语言模型带来了独特的挑战和难题,要求它们不仅要了解单个数据点,还要了解它们随时间的动态范式。尽管专门的医学大语言模型在获取领域知识方面显示出了很好的前景,但由于大语言模型在非语言数据中所面临的一些挑战和缺乏标准化的评估基准,其在消费者健康任务中的应用在很大程度上仍未经过测试和检验,这类任务严重依赖于生理(如心率)和行为时间序列数据(如每天的步数)。

图片

在本文中,作者们提出了“健康-大语言模型”,这是一个针对医疗保健领域量身定制的框架,旨在弥合当前大语言模型中预先训练知识与消费者健康问题之间的鸿沟。他们对12种可公开获取的最先进的大语言模型进行了全面评估,涵盖了心理健康、活动跟踪、新陈代谢和睡眠评估等10项健康预测任务。他们的实验包括了四个步骤:(1)零样本提示,(2)少样本提示以及思想链(CoT)和自洽(SC)提示,(3)指令微调,(4)零样本环境中的情境增强消融实验,其中情境增强是指策略性地包含如下额外信息:1)用户资料(画像)、2)健康知识、3)时间情境、4)提示语中所有这些信息的组合,以改善大语言模型对健康领域的了解。

 

图片

作者们在(1)中发现,零样本提示显示出与特定任务的基准模型相当的结果。比较(1)和(2)表明,利用较大型的大语言模型(如GPT-3.5GPT-4Gemini-Pro),少样本提示可以有效地处理数字时间序列数据,从而在某些任务中显著改进零样本学习和微调模型。通过步骤(3),他们的基于“羊驼”的微调模型,即“健康羊驼”,在10项任务中的8项任务中表现出最佳性能,尽管它远小于GPT-3.5GPT-4GeminiPro。在(4)中,他们的消融实验表明,情景增强策略可使性能提高达23.8%,凸显了情景信息在健康领域大语言模型提示语中的重要性。最后,他们给出了两个案例分析,展示了有代表性的大语言模型在健康预测任务中的逐步推理过程,说明了它们捕获时间序列数据和提供个性化建议的能力。

图片

本文的贡献可概括如下几点:

提出了“健康-大语言模型”,这是一个框架,使大语言模型能够通过可穿戴传感器数据进行提示/训练来适应健康预测。

●结合了四个公开可用的健康数据集,策划了10项新颖的消费者健康任务,并对十二个最先进的大语言模型进行了评估。

●展示了情景增强策略对“健康大语言模型”的有效性,并发布了作者们的微调模型“健康羊驼”,这是第一组针对消费者健康预测任务的开源大语言模型。

图片