青岛学者挖MIMIC用上SHAP,1区发了!

青岛大学附院挖掘MIMIC数据库,发到Cardiovascular Diabetology,🐂

⭕️文献标题

Relationship between atherogenic index of plasma and length of stay in critically ill patients with atherosclerotic cardiovascular disease: a retrospective cohort study and predictive modeling based on machine learning

⭕️研究背景

动脉粥样硬化性心血管疾病(ASCVD)是全球主要死因之一,但如何预测重症患者的住院时间(LOS)仍是临床难题。血浆致动脉粥样硬化指数(AIP)(TG/HDL-C对数比值)是动脉粥样硬化的关键标志物,但其与住院时间的关联尚未明确。本研究结合MIMIC-IV数据库与机器学习(ML),首次探讨AIP对ICU及总住院时间的影响,为精准医疗提供新思路。

⭕️统计过程(详见图2、3)

数据来源:MIMIC-IV数据库(2423例ASCVD患者)。

分析方法:

传统统计:多变量逻辑回归、限制立方样条(RCS)验证线性关系。

机器学习:5种模型(逻辑回归、决策树、随机森林、XGBoost、LightGBM)预测LOS,使用SHAP方法解析特征重要性。

特征选择:LASSO回归 + Boruta算法筛选关键变量(如败血症、机械通气)。

⭕️关键结果

AIP与住院时间正相关:

AIP每升高1单位,ICU住院风险↑42%(OR=1.42),总住院风险↑73%(OR=1.73)。

机器学习模型表现:

LightGBM预测ICU时间最佳(AUC=0.740),逻辑回归预测总住院时间最优(AUC=0.832)。

关键影响因素:败血症、机械通气、血管加压素使用(SHAP分析)。

⭕️简要结论

AIP是ASCVD患者住院时间的独立预测因子,结合机器学习可提升预后评估精度。未来需多中心验证及动态监测AIP变化。

⭕️发文思维分享

传统统计+ML=创新性UP:

基础分析用回归验证假设,ML模型增强预测性能,两者结合提升论文层次。

可解释性越发受重视:

使用SHAP、LIME等方法解释黑箱模型,让审稿人信服(如本研究SHAP揭示败血症是关键因子)。

💡 灵感Tips:

临床预测模型研究可参考本文框架:数据库挖掘→传统统计验证→ML模型优化→可解释性分析。

投稿时突出“临床转化价值”,如AIP作为低成本指标指导资源分配。

数据收集

1. 数据来源

  • 数据来源于 MIMIC-IV-3.1 数据库,这是一个公开的数据库,包含波士顿贝斯以色列迪肯尼斯医疗中心(Beth Israel Deaconess Medical Center)2008年至2019年期间超过 70,000 例重症监护病房(ICU)患者的病历信息。
  • 数据库包含患者的人口统计学信息、生理体征、检查结果和使用 国际疾病分类第九版(ICD-9)和第十版(ICD-10)编码 的诊断信息。

2. 数据提取工具

  • 使用 PostgreSQL 软件(v13.7.1)Navicat Premium 软件(v15),通过 结构化查询语言(SQL) 提取数据。

3. 潜在混杂因素的提取

  • 提取的变量包括: 📌 人口统计学信息:年龄、性别、种族。
    📌 生理体征:心率、收缩压、舒张压、平均动脉压、呼吸频率。
    📌 临床用药:阿司匹林、氯吡格雷、华法林、血管加压素、他汀类药物的使用;机械通气、连续肾脏替代治疗。
    📌 合并症
    • 急性:急性肾损伤(AKI)。
    • 慢性:慢性肾病(CKD)、肺部疾病(COPD)、高脂血症(HLD)、呼吸衰竭(RF)、心力衰竭(HF)、房颤(AF)、高血压、糖尿病。
      📌 实验室指标
    • 血细胞相关:红细胞(RBC)、白细胞(WBC)、红细胞分布宽度(RDW)、血小板(PLT)、血红蛋白(Hb)、红细胞压积(HCT)。
    • 肝功能:总胆红素(TB)、丙氨酸转氨酶(ALT)、天冬氨酸转氨酶(AST)、高密度脂蛋白胆固醇(HDL)。
    • 肾功能:血尿素氮(BUN)、血清肌酐(Cr)。
    • 凝血功能:凝血酶原时间(PT)、国际标准化比值(INR)。
    • 电解质:血清钠、血清钾、血清钙、血清镁。
      📌 住院时疾病严重程度评分
    • 序贯器官衰竭评分(SOFA)。
    • 急性生理评分 III(APS III)。
    • 全身炎症反应综合征评分(SIRS)。
    • 简化急性生理评分 II(SAPS II)。
    • 牛津急性病严重程度评分(OASIS)。
    • 格拉斯哥昏迷评分(GCS)。
    • Charlson 合并症指数(CCI)。

4. 数据处理

  • 删除缺失值超过 25% 的变量
  • 使用多重插补(MICE)方法对缺失值进行多重插补

Leave a Reply

Your email address will not be published. Required fields are marked *