5.0 Q1|首尔国立大学预测模型发文 | 人工智能驱动的生物年龄预测模型

1.第一段文章基本信息

文章题目:Artificial Intelligence-Driven Biological Age Prediction Model Using Comprehensive Health Checkup Data: Development and Validation Study

中文标题:人工智能驱动的生物年龄预测模型:基于综合健康检查数据的发展与验证研究

发表杂志:JMIR Aging

影响因子:1区,IF= 5.0

发表时间:2025年4月

2.第二段研究思路

本研究思路

本文旨在开发和验证一种基于人工智能的生物年龄预测模型,利用全面健康体检数据来预测生物年龄并评估其临床相关性。研究使用了韩国首尔国立大学医院江南中心的健康体检数据(H-PEACE队列)以及韩国基因组与流行病学研究(KoGES)的数据,纳入了27个临床因素,包括人口统计学特征、血液检查结果和人体测量学指标。研究采用多种机器学习算法(如线性回归、随机森林、梯度提升等)构建模型,并通过调整后的R²和均方误差(MSE)评估模型性能。结果显示,梯度提升模型表现最佳,其MSE为4.219,R²为0.967。通过SHAP分析,研究识别出肾功能指标、性别、糖化血红蛋水平、肝功能指标和人体测量学指标是生物年龄的重要预测因子。此外,研究还发现预测的生物年龄与代谢状态、体成分、脂肪肝、吸烟状态和肺功能等临床因素有显著关联。该研究为个性化健康管理提供了有价值的工具,并展示了生物年龄预测模型在临床实践中的潜在应用价值。

3.第三段-Introdction

背景

在过去几十年中,全球预期寿命显著增加,从2000年的66.8岁增长到2019年的73.4岁,但健康预期寿命增长缓慢,仅从58.3岁增加到63.7岁。这种人口老龄化趋势导致了医疗保健依赖和社会成本的增加。准确评估生物衰老对于减轻与衰老相关的疾病及其社会经济影响至关重要。生物年龄是指个体生理和功能状态的估计值,反映了遗传、环境和生活方式因素对衰老过程的累积影响。生物年龄低于实际年龄的个体可能患衰老相关疾病的风险较低,而生物年龄高于实际年龄则可能表明更容易患病。因此,准确估计生物年龄对于个性化健康干预和监测具有重要的临床意义。尽管已有许多研究探索人类寿命,但由于需要长期观察且临床应用有限,其评估具有挑战性。

4.第四段-Methods

方法

研究对象和数据集

本研究调查了在首尔国立大学医院江南中心参加全面健康体检的健康人群,数据收集时间为2003年至2016年。研究使用了最初的基线数据,共纳入了81,211名韩国人,构成了健康与预防增强(H-PEACE)队列。每位参与者填写了关于既往病史的问卷,并在至少禁食10小时后进行了人体测量学指标检测和实验室检查。此外,我们还使用了韩国基因组与流行病学研究(KoGES)的数据作为验证集。KoGES数据中,我们使用了健康检查队列(KoGES HEXA数据),包括既往病史、人体测量学指标和实验室数据。KoGES HEXA队列是韩国疾病控制与预防中心的一个国家健康检查登记库,包含173,357名韩国城市成年人的健康检查项目数据。我们使用H-PEACE队列数据和KoGES HEXA队列数据中重叠的临床因素。

为了定义健康的成人超级对照队列,排除标准如下:(1)被诊断为糖尿病、高血压或血脂异常的参与者;(2)每周饮酒超过14克的参与者;(3)当前或曾经吸烟者;(4)年龄小于30岁者;(5)有恶性肿瘤病史者。为了检查预测生物年龄的临床意义,我们还在基因-环境相互作用和表型(GENIE)研究中进行了多临床特征关联研究,该研究包含123个临床因素和基因数据集。我们使用了116个临床因素(排除用于预测生物年龄的27个因素),以确定与预测生物年龄的多重关联。

生物年龄预测模型的开发

本研究开发了一个基于基本健康筛查参数的生物年龄预测模型,旨在广泛适用于临床。模型使用27个临床因素,包括人口统计学特征、血液检查结果和人体测量学指标,这些因素同时存在于H-PEACE队列和KoGES HEXA队列中。真实标签为超级对照人群的实足年龄,该人群经过筛选,排除了代谢疾病、恶性疾病患者以及吸烟、饮酒者。H-PEACE队列的基线数据按年龄和性别分层,分为训练集(80%)和测试集(20%)。研究使用多种机器学习算法(如线性回归、LASSO回归、随机森林、梯度提升等)构建模型,并通过五折交叉验证和网格搜索优化超参数。模型性能通过调整后的R²和均方误差(MSE)评估,结果来自10次迭代实验,并在KoGES HEXA数据集上进行验证。SHAP分析用于解释模型预测结果,揭示生物标志物对生物年龄预测的作用。

预测生物年龄的临床相关性研究

我们使用GENIE研究数据集,对多个临床因素进行线性回归分析,以预测生物年龄,并调整实足年龄。所有报告的P值均使用Bonferroni校正进行多重检验校正。

统计和计算分析

所有分析和计算均使用Python 3.11.11版本(Python软件基金会)进行。使用多种评估指标,包括调整后的R²、MSE、β值和P值,全面评估模型的性能和关联的显著性。统计显著性基于双尾P值小于0.05。

5.第五段-Results

结果

参与者基本特征

研究纳入了28,417名在首尔国立大学医院江南中心接受全面健康体检的个体,平均年龄为44.22岁,其中男性6,467人,女性21,950人。参与者中,超过65岁的有1,005人,65岁及以下的有27,412人。研究根据年龄分层,分为20-29岁至80岁以上等多个年龄段。

生物年龄预测模型的开发与性能

研究使用了27个临床变量训练模型,并在测试集上进行预测。通过5折交叉验证和10次迭代实验,验证了模型的泛化能力。在8种机器学习算法中,梯度提升模型表现最佳,其均方误差(MSE)为4.219,调整后的R²值为0.967。支持向量机(SVM)模型次之,MSE为8.244,R²值为0.935。SHAP分析显示,肾功能指标、性别、糖化血红蛋白水平、肝功能和人体测量学指标是预测生物年龄的重要因素。

性别亚组分析

在男性和女性参与者中分别评估了梯度提升和SVM模型的性能。男性中,梯度提升模型的MSE为5.258,女性中为2.743。SHAP分析表明,肾功能、代谢状态、红细胞指数和人体测量学指标对生物年龄预测的影响在两性中均显著。

模型验证

使用KoGES HEXA数据集对模型进行验证,结果显示梯度提升和SVM模型在所有年龄组和65岁以上年龄组中均表现良好,尤其是在男性中。验证集的MSE和R²值与测试集相当。

基线与随访数据的Delta年龄评估

模型在测试集上预测了生物年龄,并计算了生物年龄与预测生物年龄之间的差异(Delta年龄)。随访数据显示,年轻组的生物衰老轨迹较为稳定,而中年和老年组的Delta年龄变化较大,衰老加速。这种趋势在梯度提升和SVM模型中均一致。

多临床因素关联研究

研究进一步探讨了预测生物年龄与116个临床因素之间的关联。结果表明,预测生物年龄与50个临床因素显著相关,包括代谢状态、体成分、脂肪肝、吸烟状态和肺功能等,即使在调整实足年龄后,这些关联依然显著。这表明预测生物年龄可能是评估个体健康状态的综合性指标。

6.第六段结论与启发

结论与启发

结论

本研究通过机器学习模型预测生物年龄,展示了其高预测准确性和临床相关性,为个性化健康监测和干预提供了有价值的工具。该模型在常规健康体检中的应用能够增强健康管理并促进定期健康评估。尽管研究结果稳健,但研究人群主要为韩国人,可能限制了结果对其他种族群体的普适性。未来研究应纳入更多样化的人群,并纳入更多变量以增强模型的全面性和适用性。此外,需要进行纵向研究以验证模型的长期预测能力及其在不同医疗保健环境中的有效性。总之,本研究证明了机器学习预测的生物年龄的临床相关性,为未来在临床实践中应用这些模型提供了依据。

【光速科研启发】

选题:研究聚焦于开发和验证一种基于人工智能的生物年龄预测模型,利用全面健康体检数据来预测生物年龄,填补了传统生物年龄预测模型依赖于传统统计方法和有限临床信息的空白,具有重要的临床和健康管理意义。

统计学:采用多种机器学习算法(包括线性回归、LASSO回归、随机森林、支持向量机、梯度提升等),通过五折交叉验证和网格搜索优化超参数,评估模型对生物年龄的预测性能。使用调整后的R²和均方误差(MSE)作为评估指标,并通过Shapley Additive exPlanation(SHAP)分析解释模型预测结果,揭示不同生物标志物对生物年龄预测的贡献。

数据库:利用首尔国立大学医院江南中心的H-PEACE队列和韩国基因组与流行病学研究(KoGES)的HEXA队列数据,确保样本的多样性和数据的丰富性。通过严格的排除标准(如排除患有代谢疾病、恶性疾病或有吸烟、饮酒史的个体)提高样本质量,为模型开发和验证提供了坚实基础。

启发:研究提示生物年龄是一个多维度的健康指标,受多种生理因素(如肾功能、代谢状态、体成分等)的综合影响。通过机器学习模型,能够更精准地预测生物年龄,为个性化健康管理提供依据。研究还发现生物年龄与多种临床因素(如代谢状态、吸烟状态等)显著相关,提示在健康评估中应综合考虑这些因素。此外,该研究展示了机器学习在医学领域的应用潜力,为未来开发更精准的健康预测工具提供了思路。

Leave a Reply

Your email address will not be published. Required fields are marked *