医学生速看挑战5天完成一篇NHANES,Day 2!
虽然最近很忙,但挑战不能停~
第2天主要任务:数据库的基本认识+了解数据库的结构和内容
都知道目前公开数据库有很多,如MIMIC、eICU数据库等
但是NHANES数据库的比较特别的点在于:
它数据获取相对来说比较的简单
也就是说我们能很方便地下载到原始数据
这对我们这些时间很紧张的“临床打工人”来说是非常友好的
不过在下载数据前我们得先熟悉数据库的结构
这是我们做任何一个数据库都需要先熟悉他有些什么数据
知道数据库的数据组成
了解数据下载的途径
这样才能嘎嘎乱杀~
从网站上我们可以看到
NHANES数据库内容是非常丰富的
之前试过MIMIC数据库,但数据量太大了,
本地安装数据花了很长时间都没搞定
NHANES就没有这个烦恼
数据库里面有很多不同的年份,比如“2015-2016”
我们叫一个周期,
因为NHANES数据库每2年上传一次相关数据
每一个周期里面有很多数据
包括了人口统计学、饮食数据、体格检查、实验室数据、问卷调查和Limited Access Data
我们最常用的是前5个板块
Limited Access Data数据需要申请获得批准后才行
但用前五个板块发文已经是绰绰有余啦~
我们以Examination数据示例
点击进去后就可以看到Doc File和Data File
我们可以通过点击Doc File这列查看这个数据集的一些基本介绍
点击Data File就能下载数据
利用R或者SPPS就能打开这个XPT的数据集文件
比如我要做的这个指标HRR通过将血红蛋白(Hb)浓度除以红细胞分布宽度(RDW)百分比来计算的。
所以我就需要分别下载Hb浓度和RDW的数据
然后再用上述公式计算。
因为一个个数据下载很麻烦
而且后面也会用得到NHANES里面的数据
所以我前期花了一些时间把所有的周期的所有数据全部下载到本地啦哈哈哈
这个工作量还是很大的
不过以后要用数据就可以直接用代码提取啦!方便很多~
好啦,今天的分享就到这里啦!我们下一篇进度汇报见!