可以做机器学习的公共数据库汇总
MIMIC数据库
数据特点: 包含5万+ICU患者的生命体征、用药记录、实验室指标等时序数据。
💡研究思路:
预后预测模型: 综合患者的生命体征、实验室检查、用药和治疗,对患者的不良预后发生风险(死亡、并发症等)进行预测。例如,构建随机森林、XGBoost、支持向量机等机器学习模型对败血症相关急性肾损伤患者7、14、28天的全因死亡风险急性预测,并结合本地医院数据进行外部验证(PMID: 37349774)。
时间序列预测模型: 多数预后预测模型的构建仅基于患者各项指标的基线水平,这可能忽略了患者住院期间因病情进展或治疗带来的波动对于预后的影响。因此有一些利用MIMIC监测数据构建基于时间序列数据的预测模型,更精准地对患者预后进行预测。例如,使用时间序列的生命体征、实验室检查等数据,构建RNN、GRU、LSTM深度学习预测模型对ICU患者院内死亡进行预测(PMID: 36250092)。
NHANES数据库
数据特点: 涵盖美国人群健康、营养、代谢等多维度数据,支持横断面研究和死亡结局的前瞻性研究。
💡研究思路:
诊断模型: 结合基本信息、生活习惯、体检结果等多维度数据,预测疾病的发生。例如,利用肥胖和营养相关的多个综合指数(ABSI、AIP、BARD、BFP、BRI、FLI、PNI)构建机器学习模型评估老年糖尿病和高血压患者的心力衰竭风险(PMID: 40036490)。
预后预测模型: 结合NDI的死亡随访数据,构建机器学习模型对全因或特异性死亡风险进行预测。例如,结合TyG相关指标及其他潜在预测因子,构建机器学习模型预测高血压患者全因死亡风险和心血管死亡风险(PMID: 39881352)。
GBD数据库
数据特点: 整合全球204个国家/地区的疾病发病率、死亡率及伤残数据。
💡研究思路:
疾病负担预测: 对时间序列数据进行分析,预测未来的疾病负担。例如,构建机器学习模型对股骨骨折的全球分布和疾病负担进行预测(PMID: 3880094)。
UKB数据库
数据特点: 整合50万人群的基因组、蛋白质组、影像学等多态数据,以及长期随访数据。
💡研究思路:
疾病风险预测模型: 结合基本信息、生活习惯、体检结果等多维度数据,预测疾病的发生。例如,从涵盖综合遗传和环境因素的366个候选变量中识别预测因子,开发机器学习模型预测普通人未来5年、10年以及更长时间内的癫痫和阿兹海默风险(PMID: 36187723)。
预后预测模型: 构建机器学习模型对死亡风险进行预测。例如,结合基本信息、基础疾病、生命体征等因素,构建机器学习模型预测COVID-19患者死亡风险(PMID: 34413324)。
SEER数据库
数据特点: 覆盖美国30%人口的癌症发病、治疗与生存数据,包含肿瘤分期、病理分型、治疗方案及预后信息。
💡研究思路:
癌症预后预测模型: 结合癌症诊疗过程、手术等相关数据,对全因死亡、肿瘤特异性死亡、转移等不良预后风险进行预测。例如,构建XGBoost模型预测乳腺癌脑转移患者的全因死亡风险。