
10.7 Q1 | 广州中医药大学机器学习发文 | 机器学习及SHAP值预测饮食抗氧化物与心血管、癌症合并症

1.第一段–文章基本信息
文章题目:Machine learning and SHAP value interpretation for predicting comorbidity of cardiovascular disease and cancer with dietary antioxidants
中文标题:机器学习与SHAP 值解释在预测心血管疾病和癌症的饮食抗氧化物合并症中的应用
发表杂志:Redox Biology
影响因子:1区,IF=12.8
发表时间:2025年2月
2.第二段–研究思路
本研究思路
本文旨在开发和验证一个结合饮食抗氧化剂的机器学习模型,以预测心血管疾病(CVD)和癌症共病,并阐明抗氧化剂在疾病预测中的作用。研究数据来源于美国国家健康与营养调查(NHANES),选取了包括维生素、矿物质和多酚类化合物在内的44种饮食抗氧化剂作为关键特征,并纳入人口统计学、生活方式和健康状况等特征以提高模型准确性。通过去除共线性特征、处理类别不平衡和数据标准化等预处理步骤后,使用mlr3框架构建了递归划分与回归树、随机森林、核k最近邻、朴素贝叶斯和光梯度提升机(LightGBM)五种模型,并通过基准测试系统评估和比较模型性能。最终,通过SHAP值分析确定了在预测性能最高的模型中每个特征的预测作用,发现LightGBM模型预测准确度最高,且抗氧化剂如黄烷酮、镁等是主要贡献因素。
3.第三段-Introdction
背景
心血管疾病(CVD)和癌症共病现象日益受到关注,因为这两种疾病类型常常共享氧化应激、炎症反应和免疫失调等共同病理机制。氧化应激不仅会导致细胞损伤,还会通过慢性炎症促进动脉粥样硬化和癌细胞的增殖、侵袭和转移,从而增加CVD和癌症患者的共病风险。研究表明,CVD和癌症风险呈正相关,癌症治疗的显著进步虽改善了患者预后,但癌症幸存者面临更高的CVD和心血管死亡风险。近年来,饮食抗氧化剂(如黄酮类、维生素和多酚类化合物)因能中和自由基减轻氧化应激,可能对这些疾病有显著保护作用,但在CVD-癌症共病风险中的具体保护作用尚不清楚,因此进一步研究饮食抗氧化剂在这一复杂病理中的保护作用至关重要。
4.第四段-Methods
方法
研究对象
美国国家健康与营养调查(NHANES)由美国国家卫生统计中心开展,收集人口统计学、社会经济、饮食和健康相关数据,用于健康评估。本研究考虑了2007-2010年和2017-2018年的NHANES参与者。纳入了有完整饮食抗氧化剂摄入信息和CVD及癌症诊断信息的个体。排除了缺失基线特征数据的参与者。详细的参与者筛选流程见图1。
饮食抗氧化剂摄入
从NHANES获取了44种饮食抗氧化剂(包括维生素、矿物质和多酚)的摄入数据。参与者在移动检查中心接受两次24小时饮食回忆访谈,访谈间隔为3-10天。计算平均每日饮食抗氧化剂摄入量。
CVD和癌症的诊断
如果参与者报告被医生或其他医疗专业人员告知患有充血性心力衰竭、冠状动脉疾病、心绞痛、心肌梗死或中风,则确认CVD诊断。同样,如果参与者报告被医生或其他医疗专业人员告知患有癌症,在医疗状况问卷中指定了特定类型的癌症,或报告使用抗癌药物,则确认癌症诊断。
基线特征的收集
基于人口统计学、生活方式和健康状况三个方面收集基线特征。这些包括年龄、性别(男性或女性)、种族/民族(墨西哥裔美国人、其他西班牙裔、非西班牙裔白人、非西班牙裔黑人和其他类别)、家庭贫困收入比(分为0-1、1-3或>3)、吸烟状况(从不、以前或现在吸烟)、是否进行中等至剧烈体力活动(是或否),以及是否存在高脂血症、高血压和糖尿病。
机器学习特征的预处理
本研究的初始数据集包含55个特征,包括46个连续变量和9个分类变量。为了减少饮食抗氧化剂特征之间的多重共线性,计算了相关系数,并移除了相关系数超过0.9的特征。为了缓解共病和非共病组之间类别不平衡的问题,应用了合成少数类过采样技术。该技术通过在每个少数类样本与其K最近邻之间的线段上插值生成新的数据点,为少数类生成合成样本。最后,我们使用标准缩放器对所有特征进行了标准化,以防止数值较大的特征在训练期间对模型性能产生不成比例的影响。
统计分析
本研究使用调查加权统计模型描述了有无共病的参与者的特征,连续变量以均值±标准误差表示,分类变量以频率和百分比表示。通过加权χ²检验、方差分析和Kruskal-Wallis H检验分别比较分类变量、正态分布的连续变量和偏态分布的特征差异。在mlr3框架下,构建了包括RPART、RF、K-KNN、NB和LightGBM的判别模型。RPART能捕捉非线性关系和特征交互,RF通过构建多个决策树降低过拟合风险,K-KNN适用于样本分布不均匀的数据,NB计算效率高,LightGBM则在处理大规模数据时具有显著的计算优势。基准测试用于系统评估和比较模型性能,选择了分类错误率、准确率、F-beta、ROC曲线下面积、敏感性、特异性和PR曲线下面积等指标。使用10折交叉验证进行数据重采样,通过方差分析和Kruskal-Wallis H检验检查不同模型指标之间的差异。SHAP值用于评估ML模型中整体特征的重要性,它采用博弈论方法,聚合单个特征的局部贡献以在全局范围内解释模型的行为。数据分析使用R(v4.4.1)统计软件包进行,相关R包用于统计分析,统计检验为双侧,p值<0.05被认为具有统计学意义。
第五段-Results
结果
基线特征
本分析共纳入了10,064名参与者,其中353人被确定患有心血管疾病(CVD)和癌症的共病。与无共病的参与者相比,患有共病的参与者镁(Mg)(260.893 [6.131] vs. 302.756 [2.976])、锌(10.489 [0.328] vs. 11.765 [0.133])、硒(Se)(97.070 [3.122] vs. 114.166 [0.835])和异鼠李素(0.730 [0.067] vs 0.888 [0.023])的摄入量显著较低。两组在年龄、体质指数、种族构成、教育程度、糖尿病状况、高脂血症状况、高血压状况、体力活动和吸烟状况方面存在显著差异

共病疾病预测模型的开发与验证
在构建机器学习模型前,研究者对特征分布进行了可视化,分类特征和连续特征的分布分别见补充图1和图2。补充图3展示了饮食抗氧化剂特征之间的相关系数,揭示了部分特征如染料木黄酮等存在高相关性。经共线性处理后,模型最终纳入了29个饮食抗氧化剂特征和9个基线特征(图2)。表1对RPART、RF、K-KNN、NB和LightGBM五种模型的性能进行了详细评估,涵盖敏感性、特异性、F-beta分数、准确率、分类错误率、ROC曲线下面积和PR曲线下面积等指标。结果显示,LightGBM模型表现最佳,准确率高达87.9%,分类错误率仅12.1%,ROC和PR曲线下面积分别达到0.951和0.930,展现了卓越的分类能力和精确召回表现。随机森林模型紧随其后,准确率为87.6%。而朴素贝叶斯模型表现最弱,准确率仅为65.0%,特异性低至47.9%。RPART和K-KNN模型表现适中,准确率分别为79.9%和80.9%。不同模型的指标存在显著统计学差异。



SHAP值解释饮食抗氧化剂特征的重要性
SHAP图(图5A和补充图9)显示了每个特征(按重要性排序的前15个)在预测共病疾病机器模型中的重要性。SHAP值表明,黄烷酮(0.0335)、镁(0.0274)、茶黄素(0.0234)、山柰酚(0.0231)、橙皮素(0.0221)、硒(0.0220)、马尔贝酸(0.0220)和维生素C(0.0208)是主要的负贡献者。为了更好地说明饮食抗氧化剂在模型预测和预测过程中的贡献,我们使用shapviz包生成了瀑布图(图5B)和力图(图5C)。图5B显示了抗氧化剂在预测非共病事件中的贡献排名以及累积预测水平,最终预测值达到0.98。在图5C中,所有橙色的饮食抗氧化剂代表对共病事件风险较低的特征。这些可视化为用户提供了模型如何进行预测的详细见解,使他们能够做出明智的饮食调整。此外,我们还绘制了SHAP值和饮食抗氧化剂特征之间的相关散点图(补充图10)。从散点图可以看出,黄烷酮、镁、维生素C、维生素E、硒、芹菜素、山柰酚、杨梅素和槲皮素与SHAP值呈正相关。

5.第六段–结论与启发
结论与启发
结论
总之,我们开发并验证了用于预测心血管疾病(CVD)和癌症共病的预测模型,使用了RPART、RF、K-KNN、NB和LightGBM。在这五种算法中,LightGBM显示出最高的区分能力和准确性,用于预测CVD和癌症的共病。SHAP值阐明了抗氧化剂的重要性,黄烷酮和镁被确定为该模型中的主要抗氧化剂。
【光速科研启发】
选题:研究聚焦于心血管疾病(CVD)和癌症的共病现象,探讨饮食抗氧化剂在预测CVD和癌症共病中的作用,填补了现有研究在这一领域的空白,具有重要的临床和公共卫生意义。
统计学:采用调查加权统计模型描述参与者特征,通过加权χ²检验、方差分析和Kruskal-Wallis H检验比较不同变量的特征差异。构建了包括RPART、RF、K-KNN、NB和LightGBM在内的多种机器学习模型,并使用基准测试系统评估和比较模型性能。通过10折交叉验证减少评估偏差,并利用SHAP值评估模型中特征的重要性,为模型的解释性提供了有力支持。
数据库:利用美国国家健康与营养调查(NHANES)数据库,确保样本的代表性和数据的丰富性。通过严格筛选,排除缺失数据的参与者,提高样本质量,为研究提供坚实的基础。
启发:研究提示在评估CVD和癌症共病风险时,应综合考虑饮食抗氧化剂的摄入情况。通过机器学习模型的分析,发现特定抗氧化剂(如黄烷酮和镁)在预测共病风险中具有重要作用,为个性化干预提供依据。利用饮食抗氧化剂作为易于获取的非侵入性指标,促进大规模人群筛查和公共卫生干预,有助于降低CVD和癌症共病的风险。