
医学生速看!挑战7天完成一篇NHANES,Day 2!
我的新挑战继续进行~

第2天的主要任务是了解数据库。
NHANES数据库一听名字就知道和我们的MIMIC、eICU一样是一个公开数据库,但与众不同的是,NHANES的数据获取相对来说更加简便,也就是说可以非常方便地下载到原始数据,对我们这些“临床牛马”来说是非常有利的。之前尝试过搞MIMIC,但由于数据量庞大,本地安装数据库花费了很长时间,NHANES就没有这个烦恼,可以轻松上手。

利用公开数据库发表文章,最重要的就是要了解数据库的数据组成,知道它包含哪些数据,这样才能确定可以利用哪些数据进行构思。NHANES是关于健康和营养调查的横断面调查。从官方网站上我们可以看到,数据库内容非常丰富。

NHANES数据库包含了不同年份的数据,比如“2013-2014”,我们称之为一个周期,因为NHANES每两年上传一次相关数据。每个周期里包含了大量的数据,但我们主要利用的是Data、Documentation、Codebooks,其中包括人口统计学、饮食数据、体格检查、实验室数据、问卷调查和Limited Access Data,而我们最常用的是前五个。Limited Access Data需要申请批准后才能使用。

点击进入后,我们可以看到Doc File和Data File,通过Doc File我们可以了解这个数据集的基本情况,点击Data File就能下载数据,然后利用R或者SPSS等软件打开这个XPT格式的数据集文件。
因为后面会用到NHANES里的数据,所以我花了一些时间将所有周期的数据全部下载下来,这个工作量还是相当可观的。
好了,今天的分享就到这里啦!期待明天的继续探索!
