
高分严选,挑战7天一篇NHANES,Day 2!
新挑战继续进行~

第2天主要任务:数据库的认识
NHANES数据库听名字就知道和我们的MIMIC、eICU 一样是一个公开数据库,
但是这个数据库的比较特别的点在于数据获取相对来说比较的简单,
也就是说能非常方便的就下载到原始数据,
这对我们这些“临床牛马”来说是非常利好的。

之前也尝试过搞MIMIC,数据量太大了,
本地安装数据库装了很久都没装上,
NHANES就没有这个烦恼,可以疯狂冲锋冲锋
利用公开数据库发文章,最重要的就是要知道数据库的数据组成,
他有那些数据,才能知道我可以利用些什么样子的数据进行idea构思。

NHANES是关于营养调查的健康和营养的信息,是一个横断面的调查。
从网站上我们可以看到,数据内容是非常丰富的。
里面有不同的年份,比如“2013-2014”,我们叫一个周期,
因为NHANES每2年上传一次相关数据。
每一个周期里面有很多数据,但是我们主要利用的是(Data, Documentation, Codebooks),

里面是包括了人口统计学、饮食数据、体格检查、实验室数据、问卷调查和Limited Access Data,
我们最常用的是前5个,
Limited Access Data数据需要申请,需要的批准候才行。
点击进去后就可以看到Doc File和Data File,
我们可以通过Doc File刊这个数据集的一些基本介绍,
点击Data File就能下载数据,
然后利用R或者SPPS就能打开这个XPT的数据集文件
因为后面也会用得到NHANES里面的数据,

所以我花了一些时间把所有的周期的所有数据全部下载完了哈哈哈
这个工作量还是很大的
好啦,今天的分享就到这里啦!明天见