阜外学者挖NHANES发了1区

⭕️文献标题

Role of oxidative balance score in staging and mortality risk of cardiovascular-kidney-metabolic syndrome: Insights from traditional and machine learning approaches

⭕️研究背景

心血管-肾脏-代谢综合征(CKM)是一种系统性进展性疾病,涉及肥胖、糖尿病、慢性肾病和心血管疾病的复杂交互。氧化应激是CKM病理机制的核心,但如何量化其整体影响仍不明确。本研究首次引入氧化平衡评分(OBS),结合抗氧化与促氧化因子,探讨其在CKM分期及死亡风险中的作用,并利用机器学习模型优化预测。

⭕️统计过程亮点

数据来源:基于NHANES(1999-2018)的2.1万例样本,通过多重填补处理缺失值。

分析方法:

传统统计:多分类Logistic回归分析OBS与CKM分期的关联;Cox比例风险模型评估OBS对死亡率的影响。

机器学习:LightGBM、随机森林等模型预测CKM分期和死亡率,结合SHAP值解析特征重要性。

中介分析:验证OBS在炎症指数(SII)、健康评分(LS7)与死亡率间的中介效应。

⭕️关键结果

低OBS=高风险:

OBS最低四分位(Q1)患者的全因死亡风险比Q4高31%(HR=1.31),心血管死亡风险高44%。

OBS<22是死亡风险分层的最佳阈值。

CKM分期:OBS越低,晚期(3-4期)CKM比例显著升高(OR最高达4.41)。

机器学习预测:

LightGBM模型预测晚期CKM的AUC达0.905,全因死亡率预测AUC为0.875。

关键特征:吸烟标志物(可替宁)、BMI、体力活动、维生素B6和镁。

⭕️结论与启示

OBS是CKM风险分层和预后管理的有效工具,抗氧化饮食和生活方式干预或可延缓疾病进展。

机器学习+传统统计的结合能提升预测精度,SHAP值可解释模型,助力临床决策。

⭕️思维分享

选题创新:从新兴概念(CKM)切入,结合氧化应激这一热点机制,填补研究空白。

方法融合:传统统计验证假设,机器学习增强预测效能,中介分析深化机制探索。

数据利用:公共数据库(NHANES)的高效挖掘+多重填补处理缺失值,值得借鉴。

数据来源

  • 数据来自美国国家健康与营养调查(NHANES)1999-2018 年的数据。
  • 初始筛选了 55,081 名年龄 ≥20 岁的参与者,排除了 CKM 相关数据、OBS 相关数据、怀孕、失踪死亡随访数据以及极端饮食摄入的参与者,最终样本量为 21,609 人。

数据预处理

  • 缺失值处理:使用 Python 的 miceforest 包进行多重插补,基于随机森林模型进行链式方程的多重插补,共进行 10 次迭代。

变量定义与分组:

  • CKM(三合血管-肾-代谢综合征):根据 AHA 定义,分为四个阶段(0-4)。
  • OBS(氧化平衡评分):由 16 种饮食营养素和 4 种生活方式因素组成,通过两次 24 小时饮食回忆计算每种营养素的摄入量。
  • 生存结局:包括全因死亡、心血管死亡和非心血管死亡,数据来源于 CDC 网站,截止 2019 年 12 月 31 日。
  • 协变量:包括人口统计学信息、体格测量、生活方式因素、生物标志物等。

统计分析

描述性统计:

  • 连续变量:以中位数和四分位数范围(IQR)描述,使用 Kruskal-Wallis 检验进行组间比较。
  • 分类变量:以频数和百分比描述,使用 Fisher 精确检验进行组间比较。

OBS 与 CKM 阶段的关系

  • 使用多变量多类别逻辑回归(multinomial logistic regression)评估 OBS 与 CKM 各阶段(0-4)的关系,调整 7 年权重,报告边际效应估计,结果以边际效应图形式展示。

OBS 与死亡率的关系

  1. Kaplan-Meier 生存曲线:绘制不同 OBS 四分位数组的生存曲线,使用 Log-rank 检验比较组间差异。
  2. 限制性立方样条(RCS)分析:用于探索 OBS 与死亡率的非线性关系,筛选 Akaike 信息准则(AIC)和贝叶斯信息准则(BIC)选择最优的节点。
  3. Cox 回归模型:构建多变量 Cox 模型,估计 OBS 四分位组的死亡率风险比(HR)和 95% 置信区间(CI),以 Q1 为参考组,调整了上述混杂因素。
  • 亚组分析:评估年龄(<65 岁 vs. ≥65 岁)、性别、BMI(<30 kg/m² vs. ≥30 kg/m²)和 CKM 阶段(1-2 vs. 3-4)对 OBS 与死亡率关系的影响。
  • 敏感性分析
  • 排除随访前两年内死亡的 CKM 患者,重新评估 OBS 与死亡率的关系。
  • 排除肿瘤患者的 CKM 患者,验证主要分析结果的稳健性。

风险分层阈值的确定

  • 使用 survminer 包中的 surv_cutpoint 函数,基于最大化选择株样转换计量方法确定 OBS 在死亡率风险分层中的最佳截断点。

中介效应分析

  • 使用 R 的 mediation 包进行中介分析,评估 OBS 是否可穿过 SII(系统炎症免疫指数)、LS7(Life’s Simple 7 Score)和影响性评估与死亡率结果之间的关系,采用自助法(1000 次重采样)估计中介效应的 95% 置信区间。

机器学习模型开发与验证

数据集划分:

  • 将数据集随机分为训练集(70%)和测试集(30%)。

模型构建:

  • 使用 Python 的 Scikit-learn 和 lightgbm 包构建了五种机器学习模型:

Leave a Reply

Your email address will not be published. Required fields are marked *