谷歌DeepMind发布PH-LLM健康模型 Nature论文证实其多项指标超越医学专家

小编 45 0

新智元报道

编辑:桃子

【新智元导读】谷歌DeepMind团队在国际顶级期刊《Nature》发表最新研究成果,宣布成功开发基于Gemini大模型的PH-LLM个人健康管理系统。该AI系统能够将可穿戴设备采集的生理数据转化为个性化睡眠健康指导方案,经权威测试验证,其专业能力已显著超越人类医学专家水平。

人工智能在精准健康管理领域的突破性进展,正由谷歌DeepMind团队加速实现。

近日,谷歌DeepMind正式推出针对个人睡眠与健康管理的专业大语言模型PH-LLM,该模型基于Gemini架构进行专项优化训练,具备从生理数据到健康建议的全链条分析能力。

论文地址:https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

PH-LLM系统核心功能在于实现可穿戴设备数据的智能转化与可视化呈现。

作为集成睡眠医学分析与运动健康指导的AI助手,该系统可实时处理智能手表等穿戴设备采集的多维度生理指标。

第三方测试数据显示,PH-LLM在睡眠医学专业考试中取得79%的正确率,超过人类医生群体76%的平均水平;在运动健康认证测试中更以88%的得分大幅领先人类专家71%的成绩。

更值得关注的是,在双盲评估实验中,PH-LLM生成的健康指导方案与人类专家建议的一致性达到专业认可水平。该系统仅通过传感器数据即可准确预测用户睡眠质量等主观健康指标。

当前主流可穿戴设备普遍存在数据呈现碎片化、缺乏专业解读的行业痛点。

遗传学博士Dominic Ng评价指出:"PH-LLM系统实现了从数据到洞察的关键跨越,这正是临床医生在诊疗过程中核心价值的体现。"

这项具有里程碑意义的研究成果已于14日正式刊载于《Nature》期刊,揭示了谷歌DeepMind在健康AI领域的技术突破路径。

谷歌出手不凡,Gemini版「健康私教」

传统临床医学检测虽能提供关键健康信息,但对于睡眠结构、运动负荷、心理压力等动态生理指标的评估存在时效性局限。

现今,可穿戴智能设备已具备无感式连续监测生理参数的技术能力。

然而,这类海量生理数据因缺乏临床上下文关联、存储分析成本高、专业解读难度大等因素制约,尚未在临床医学实践中得到充分应用。

尤为关键的是,现有医学问答数据集未能有效整合可穿戴设备产生的时序生理数据,导致通用大语言模型及专业医学AI系统难以提供精准的个性化健康指导。

针对这一技术瓶颈,谷歌研究团队基于Gemini架构专项研发PH-LLM系统,重点突破睡眠健康与运动指导两大应用场景的AI推理能力,系统架构如图所示。

可穿戴设备能监测信息远超这两个领域,为什么研究团队仅聚焦于此?

一方面,现有研究已充分验证可穿戴设备,在这些领域监测数据的准确性与适用性。

另一方面,设备使用者参与度高,无需提供临床建议即可给出实用指导方案。

研究中的真实案例显示:系统通过分析一名65-70岁男性用户连续30天的生理数据,精准识别其睡眠作息规律,同时发现该用户日均睡眠时长仅为5小时28分钟的异常情况。

基于此,PH-LLM生成科学干预建议:

理想睡眠周期建议设定为晚间12:00至次日早晨7:30,可通过每3天将就寝时间提前15分钟的渐进式调整方案达成目标。

PH-LLM系统基于Gemini Ultra 1.0架构实施两阶段专业训练流程。

第一阶段开展全模型微调整合,重点强化睡眠健康领域的长篇案例分析与建议生成能力。

训练数据集涵盖人口统计学信息、最长30天的日度生理指标、多维度聚合统计数据及个体运动日志等健康相关案例资料。

完成案例分析能力训练后,研发团队为系统增设多模态适配模块。

该适配模块专门用于基于至少15天的连续被动传感数据(包含每日睡眠结构与活动量指标),预测睡眠障碍风险及睡眠质量主观评估结果(PROs)。

两阶段训练完成后,团队从个人健康教练所需的多元能力维度出发,针对三大任务评估了PH-LLM的表现:

首先,通过多选题测试评估模型掌握的专家级领域知识储备;

其次,通过长案例研究检验模型应用专业知识、解读聚合传感器数据以提供教练建议的能力;

最后,测试模型预测患者主观报告结果(PROs)的能力,使其在生成建议时能整合个体对睡眠质量的自评数据,真正实现个性化健康指导。

AI击败人类专家

测试结果显示,在睡眠医学和健康体能考试,PH-LLM的答题正确率分别达到79%和88%(表1与图1b)。

这一结果,显著超过获得睡眠医学继续教育学分(CME)要求的约70%及格线。

而且,与主流外部模型相比,PH-LLM表现颇具竞争力:睡眠类题目稍逊但体能类题目表现相当。

具体而言,在睡眠医学考试中PH-LLM得分79%,Gemini Ultra 1.0为77%;在体能考试中两者均获88%得分。

受试者工作特征曲线(ROC)与精确率-召回率曲线,均证实模型在两类考试中的优异表现(附图2)。

值得注意的是,尽管针对睡眠与健康任务进行了微调,PH-LLM在PubMedQA29和MedQA30通用医学基准测试中,性能并未下降(附表1)。

值得一提的是,睡眠医学题库包含每道题目的人类考生答题分布等元数据,这允许团队基于题目难度进行分层性能比较。

PH-LLM在所有难度层级均小幅领先Gemini Ultra 1.0,且在难题上的优势更为明显。

这表明,睡眠案例研究的微调确实提升了相关题目的解答能力(表2)。

为量化PH-LLM的表现水平,团队还招募了5位平均从业25年的睡眠医学专家(均持有高级学位)和5位平均从业13.8年的职业运动教练参加同规格考试。

专家组在睡眠医学试题样本(N=204)中的平均正确率为76%,体能考试为71%,PH-LLM在两类题库中均超越人类专家(表1)。

按人类考生答题难度分层分析显示,PH-LLM的表现与人类考生及受邀专家群体相当(表2)。

案例分析,接近专家水平

接下来,研究团队进一步评估了,模型应用专业知识与解读传感器数据的能力。

为此,他们创建了首个睡眠与健康领域的详细个人健康案例数据集(857个案例,含3,271组问答对),由多位相关领域专家共同审定。

该数据集包含持续数周的个体可穿戴传感器数据,以及对应的深度分析与建议(图2a,b)。

在健康管理案例分析中,PH-LLM模型在三个维度(运动处方制定、恢复方案建议、训练准备度评估)上,表现出与人类专家及Gemini Ultra 1.0相当的水平(图2d)。

传感器数据,预测健康报告

此外,为了评估PH-LLM能否推断用户体验以优化健康指导,团队测试了每日传感器数值数据预测睡眠障碍和睡眠损伤PROs的能力。

首先通过计算问卷回答间的相关性分析PRO数据,发现16个问题测量了相关但独立的睡眠维度(图3a)。

随后检查传感器特征是否存在混杂因素,发现不同设备和参与者依从性间的传感器读数分布相似。

结果显示:没有单一特征对所有PROs具有绝对预测优势,预测信号广泛分布于多个传感器(图3b)。

为使PH-LLM能从传感器特征预测PROs,研究人员又训练了一个多层感知机(MLP)适配器,将20项传感器特征的统计量映射至PH-LLM的潜在标记空间(方法部分)。

随后将这些潜在标记作为上下文输入PH-LLM,要求其预测每个二分类结局。

在保留测试集中,团队比较了零样本提示、少样本提示与PH-LLM适配器方法,在受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)的表现(图3c,d)。

值得注意的是,客观睡眠测量数据对主观睡眠质量指标的预测力通常有限,但配备适配器的PH-LLM在AUROC和AUPRC上均显著优于两种提示方法。

正如Dominic Ng所言,谷歌研究意义并不止于一个「AI战胜医生」的故事。

这恰恰证明了,LLM可以将被动的健康监测,转化为积极的健康管理。

它不仅了解你的身体,还能理解其原因,并给出及时应对方法。

这就是预防医学的未来。