
盘点可以做机器学习的4个公共数据库🔥
MIMIC数据库
1、MIMIC数据库是什么?
MIMIC数据库是由麻省理工学院计算生理学实验室开发的重症监护医学数据库,收录了超过6万次住院的详细数据。该数据库包含人口统计学、生命体征、实验室检测数据等多维信息,是研究危重症患者的宝贵资源。
2、结合机器学习研究思路
① 预后预测模型:
综合患者的生命体征、实验室检查、用药和治疗,对患者的不良预后发生风险(死亡、并发症等)进行预测。
例如:构建随机森林、XGBoost、支持向量机等机器学习模型对脓毒症相关急性肾损伤患者7、14、28天的全因死亡风险急性性预测,并结合本地医院数据进行外部验证。
Construction and validation of prognostic models in critically ill patients with sepsis-associated acute kidney injury: interpretable machine learning approach
J Transl Med, 2023 Jun 22;21(1):406.
② 时间序列预测模型:
多数预后预测模型的构建仅基于患者各项指标的基线水平,这可能忽略了患者住院期间因为病情进展或治疗带来的波动对于预后的影响。
因此有一些利用MIMIC监测数据构建基于时间序列数据的预测模型,更精准地对患者预后进行预测。
例如,使用时间序列的生命体征、实验室检查等数据,构建RNN、GRU、LSTM深度学习预测模型对ICU患者院内死亡进行预测。
Explainable time-series deep learning models for the prediction of mortality, prolonged length of stay and 30-day readmission in intensive care patients
Front Med (Lausanne), 2022 Sep 28;9:933037.
GBD数据库
1、GBD数据库是什么?
全球疾病负担(Global Burden of Disease,GBD)数据库由华盛顿大学健康指标与评估研究所(IHME)主导,是全球最全面的健康数据库之一。它涵盖了195个国家和地区从1990年至今的健康数据,包括300多种疾病和伤害以及70多种风险因素的数据。
2、结合机器学习研究思路
疾病负担预测:
对时间序列数据进行分析,预测未来的疾病负担。
例如,构建机器学习模型对股骨骨折的全球分布和疾病负担进行预测。
Phase alterations of spin echoes by motion along magnetic field gradients
Magn Reson Med, 1985 Dec;2(6):527-33.
SEER数据库
数据特点:
覆盖美国30%人口的癌症发病、治疗与生存数据,包含肿瘤分期、病理分型、治疗方案及预后信息。
💡研究思路:
结合患者基本信息、癌症病程、手术等相关数据,对全因死亡、肿瘤特异性死亡、转移等不良预后风险进行预测。例如,构建XGBoost模型预测乳腺癌脑转移患者的全因死亡风险。
需要注意的是,SEER数据库目前国内无法访问。
UKB数据库
数据特点:
整合50万人群的基因组、蛋白质组、影像学等多模态数据,以及长期随访数据。
💡研究思路:
① 疾病风险预测模型:
结合基本信息、生活习惯、体检结果等多维度数据,预测疾病的发生。
例如,从涵盖综合遗传和环境因素的366个候选变量中识别预测因子,开发机器学习模型预测普通人未来5年、10年以及更长时间内的痴呆和阿兹海默病风险(PMID:36187723)。
② 预后预测模型:
构建机器学习模型对死亡风险进行预测。
例如,结合基本信息、基础疾病、生命体征等因素,构建机器学习模型预测COVID-19患者死亡风险(PMID:34413324)。