
6.2 Q1 | 南昌大学机器学习发文 | 使用环境挥发性有机化合物暴露识别美国人群的心血管疾病风险

1.第一段–文章基本信息
文章题目:Identifying cardiovascular disease risk in the U.S. population using environmental volatile organic compounds exposure: A machine learning predictive model based on the SHAP methodology
中文标题:使用环境挥发性有机化合物暴露识别美国人群的心血管疾病风险:基于SHAP 方法的机器学习预测模型
发表杂志:Ecotoxicology and Environmental Safety
影响因子:1区,IF=6.2
发表时间:2024年11月
2.第二段–研究思路
本研究思路
本文旨在利用机器学习预测模型结合挥发性有机化合物(VOCs)暴露数据和人口统计学信息来预测心血管疾病(CVD)风险。研究使用了2011至2018年国家健康与营养调查(NHANES)的数据,包含5098名参与者。通过检测15种尿液中的VOCs代谢物来评估VOCs暴露水平,并将数据集分为训练集(70%)和测试集(30%)。研究开发了六种机器学习模型,包括随机森林(RF)、LightGBM、决策树(DT)、XGBoost、多层感知机(MLP)和支持向量机(SVM),并使用接收者操作特征曲线下面积(AUROC)等指标评估模型性能。最终,随机森林模型表现最佳,AUROC值达到0.8143。通过SHAP分析解释该模型,发现年龄和ATCA(一种VOCs代谢物)是最重要的预测因子,其中ATCA对CVD具有保护作用,尤其在老年人和高血压患者中更为显著。研究还发现ATCA水平与年龄之间存在显著的交互作用,表明ATCA的保护作用在老年人群中更为突出。本研究是首次利用VOCs暴露数据构建CVD风险预测模型,为结合环境暴露数据与人口统计学信息以增强CVD风险预测提供了新的视角,有助于开发个性化预防和干预策略。
3.第三段-Introdction
背景
近年来,环境污染尤其是挥发性有机化合物(VOCs)被认为对多种疾病的发生有重要影响。VOCs广泛存在于汽车尾气、烟草烟雾、化工排放和油漆等中,可通过多种途径被人体吸收,是大气污染的主要来源之一。然而,由于缺乏针对性监测和VOCs时空变异大,其与疾病的关系尚不明确。近期研究发现,VOCs的尿液代谢物是评估个体暴露水平和健康影响的特异性指标。心血管疾病(CVD)是全球主要死因之一,其发病率逐年上升。研究表明,多种环境污染物与CVD密切相关,VOCs暴露与CVD发病率呈正相关,且长期暴露会增加住院率和死亡风险。尽管如此,目前的研究还不足以满足临床需求,尤其是对于化工行业工人、汽车修理工等高危人群,早期评估和预测CVD风险至关重要。遗憾的是,目前尚无基于VOCs暴露数据构建的CVD风险预测模型。我们相信,建立基于个体VOCs暴露的预测模型将有助于临床医生准确监测高危人群的CVD风险变化,实现早预防、早发现和早治疗。
4.第四段-Methods
方法
研究对象
研究共收集并合并了39156名参与者的数据。为了确保数据的代表性和结果的稳健性,研究排除了尿液中挥发性有机化合物(VOCs)代谢物值缺失、低于检测下限(LLOD)或超过总人群三分之一的参与者,最终纳入分析的有15种VOCs代谢物。每种纳入的尿液VOCs代谢物的官方缩写和LLOD详见补充表1。
尿液中VOCs的评估
采用超高效液相色谱-电喷雾串联质谱(UPLC-ESI/MSMS)对人尿液中的VOCs进行定量分析,具体方法详见先前的研究。色谱分离使用Acquity UPLC® HSS T3柱,以15 mM醋酸铵和乙腈作为流动相。简言之,柱流出物首先通过电喷雾接口离子化,生成负离子后传输至质谱仪。通过比较待测物与稳定同位素标记内标的相对响应因子(待测物与内标物的比值)与已知标准浓度,确定各分析物的浓度。有关检测尿液中VOCs的实验室方法的详细信息可在官方网站上查阅。
CVD的定义
CVD定义为包括充血性心力衰竭、冠状动脉疾病、心绞痛或心肌梗死在内的任何报告的诊断结果。评估心血管健康的数据来自问卷调查中的CVD与健康部分,包括参与者层面的访谈回应。访谈部分由经过培训的访谈者使用计算机辅助个人访谈系统在参与者家中进行。这种结构化的方法显著降低了偏差的可能性,提高了自我报告数据的可靠性。
协变量
年龄、性别、种族/民族、家庭贫困收入比(PIR)、婚姻状况、教育程度、高血压、糖尿病、吸烟状况和BMI
统计分析
在基线分析中,协变量中的连续变量以中位数和四分位间距(Q1和Q3)表示,分类变量以病例数(N)和百分比(%)表示,采用Wilcoxon秩和检验和Pearson卡方检验比较有无CVD的两组之间的差异。此外,对mVOCs浓度进行log10转换,并按4分位数分组(分位数1-分位数4),在此基础上,使用单变量和多变量逻辑回归模型评估mVOCs与心血管疾病发病率之间的相关性。使用比值比(OR)及其对应的95%置信区间(CI)来表示相关性的趋势。在回归模型中,模型1未调整任何变量,模型2调整了年龄、性别、种族、婚姻状况、PIR和教育水平,模型3在模型2的基础上进一步调整了吸烟、糖尿病、高血压和BMI。为了评估未测量的混杂因素对VOC暴露与CVD风险关系的潜在影响,我们计算了E值。E值提供了从一个未观察到的混杂因素中完全解释观察到的关联所需的关联强度的定量度量。
变量选择和机器学习模型构建
本研究将数据集分为训练集(70%,n=3568)和测试集(30%,n=1530)。为应对复杂高维数据对机器学习算法性能的挑战,研究采用基于随机森林的Boruta算法在训练集中筛选出最重要的变量,该算法通过多次迭代使重要变量更清晰,其结果比传统方法更可靠。随后,运用SMOTE算法实现训练组中CVD和非CVD人群样本的平衡。基于训练集,构建了六种机器学习模型:随机森林(RF)、LightGBM、决策树(DT)、XGBoost、多层感知机(MLP)和支持向量机(SVM)。每种模型因其独特优势被选用,如RF和XGBoost在处理结构化数据方面表现出色,LightGBM适合大型数据集,MLP能捕捉复杂模式,SVM在二分类中效果显著,决策树则提供变量相互作用的可解释见解。所有模型均经过超参数调整和五重交叉验证,以确保性能和可靠性。使用AUROC评估模型预测性能,其值越大,预测能力越强。
模型可解释性
本研究采用SHAP算法对表现最佳的模型进行解释,通过为每个变量分配SHAP值来定量评估其对预测准确度的影响。SHAP值的可视化通过生成SHAP摘要图和依赖图实现,前者展示各特征的总体贡献,后者分析特征间的交互效应。SHAP技术基于Shapley值,将模型预测表示为协变量存在与否的二进制变量的线性组合。它通过加性特征归因方法近似每个预测,该方法需满足局部准确性、缺失性和一致性等属性,以提供有意义的个体预测解释。SHAP值在变量缺失时为零,且随变量贡献增加而增大,满足一致性。所有统计分析在R 4.3.0和Python 3.9.0环境中完成,以p值<0.05作为统计学意义标准。
第五段-Results
结果
基线特征
在基线分析中,共随机选取了515名CVD患者和4583名对照组参与者。CVD患者往往年龄较大,收缩压(SBP)、舒张压(DBP)、体质指数(BMI)、糖化血红蛋(HbA1c)水平较高,高密度脂蛋白胆固醇(HDL-C)和家庭贫困收入比(PIR)较低,更可能是男性、糖尿病患者、吸烟者、白人且教育程度较低。在mVOCs水平方面,CVD患者T34_MHA、AMCC、CYMA、DHBMA、CEMA、T2HPMA、MHBMA3、PGA、MA和HMPMA水平显著更高,而ATCA水平显著更低。
mVOCs与CVD风险的相关性
逻辑回归分析结果显示,在未调整混杂因素的模型1中,X3,4MHA、AMCC、ATCA、CEMA、X3HPMA、CYMA、DHBMA、X2HPMA、MHBMA3、PGA和HMPMA的水平与CVD风险显著相关。在调整了年龄、性别、种族、婚姻状况、PIR、教育水平、吸烟、糖尿病、高血压和BMI等混杂因素后的模型3中,ATCA、CEMA、CYMA、X2HPMA和PGA的水平仍与CVD风险显著相关。其中,ATCA是CVD风险的保护因素,而其他三种mVOCs均以浓度依赖性方式增加人群的CVD风险。相对较大的E值表明模型稳健,提示任何未测量的混杂因素需相当强才能完全解释观察到的关联。
模型变量选择
使用Boruta算法确定了21个潜在有效的预测变量,包括高血压、年龄、SBP、DBP、性别、PIR、BMI、T2MHA、T34_MHA、AAMA、AMCC、ATCA、SBMA、CEMA、T3HPMA、CYMA、DHBMA、T2HPMA、MHBMA3、PGA、MA和HMPMA。这些变量被用于训练和构建机器学习模型。
模型评估与比较
六种机器学习模型(RF、LightGBM、DT、XGBoost、MLP和SVM)的ROC曲线显示,在测试集中,随机森林(RF)模型表现最佳,其AUROC值为0.8143,表明该模型具有出色的预测能力。因此,后续分析的重点是解释最佳模型(RF)。
特征重要性可视化
SHAP分析用于评估RF模型中每个特征变量的重要性及其在模型预测中的贡献。结果显示,年龄是所有变量中最重要的,具有最大的SHAP值,是CVD风险的重要危险因素。在mVOCs成分中,ATCA的重要性排名第二,仅次于年龄,且对CVD发展具有保护作用。其他变量的重要性依次降低。此外,还考虑了有无CVD人群中连续变量和分类变量的亚组特异性结果。
关键mVOCs对CVD的交互效应
通过SHAP交互值分析,研究了在RF模型中对CVD风险预测有显著贡献的年龄、高血压和ATCA水平之间的交互效应。结果表明,在非高血压个体中,较高的ATCA水平与更高的SHAP交互值相关,表明对CVD的保护作用更强。在高血压个体中,随着ATCA水平的升高,其保护作用显著增强。在年龄方面,年轻参与者的SHAP交互值在低ATCA水平时较低,随着ATCA水平的升高而增加,而老年参与者的SHAP交互值在高ATCA水平时始终较高。总体而言,较高的ATCA水平与CVD风险降低相关,尤其是在高血压个体和老年人中,表明ATCA与这些因素之间存在显著的交互作用。
5.第六段–结论与启发
结论与启发
结论
据我们所知,这是首次开发与mVOCs暴露相关的机器学习模型以预测CVD风险。基于NHANES的mVOCs数据,我们构建并选择了最佳的随机森林模型,并使用SHAP方法对模型进行解释。该模型以非常高的准确性预测了CVD风险,其中ATCA是模型中贡献最大的mVOCs成分,并且与年龄存在交互作用。我们的研究结果表明,在公共卫生相关的大数据疾病风险识别预测模型中纳入环境污染因素具有很高的临床应用和推广价值。机器学习预测模型为临床医生识别暴露于mVOCs的高危人群的CVD风险提供了有效的辅助工具,并为患者个性化心血管疾病预防和治疗措施的早期制定提供了有力的数据支持。
【光速科研启发】
选题:本研究聚焦于挥发性有机化合物(VOCs)暴露与心血管疾病(CVD)风险之间的关联,利用机器学习模型进行预测,填补了利用VOCs暴露数据构建CVD风险预测模型的空白,具有重要的临床和公共卫生意义。
统计学:采用机器学习算法(如随机森林、LightGBM等)构建预测模型,并使用SHAP算法对模型进行解释,评估各变量对模型预测的贡献。通过逻辑回归模型和E值分析评估VOCs与CVD风险的关联,并检验潜在的交互作用,为模型的稳健性提供支持。
数据库:利用国家健康与营养调查(NHANES)数据库,确保样本的代表性和数据的丰富性。通过严格的变量筛选和样本平衡处理,提高数据质量,为研究提供坚实的基础。
启发:研究结果表明,结合环境暴露数据与人口统计学信息可以显著提高CVD风险预测的准确性。通过模型解释发现,特定的VOCs成分(如ATCA)对CVD风险有显著的保护作用,尤其是在老年人和高血压患者中。这为针对高危人群的个性化预防和干预策略提供了依据。此外,本研究提供了一种新的方法,利用机器学习和SHAP解释技术,可以推广到其他疾病的预测模型中,为公共卫生研究和临床实践提供新的思路。