挑战7天光速完成一篇NHANES，Day 2!

我的新挑战继续进行~
第2天主要任务：数据库的认识
NHANES数据库听名字就知道和我们的MIMIC、eICU 一样是一个公开数据库，
但是这个数据库的比较特别的点在于数据获取相对来说比较的简单，
也就是说能非常方便的就下载到原始数据，
这对我们这些“临床牛马”来说是非常利好的。
之前也尝试过搞MIMIC，数据量太大了，
本地安装数据库装了很久都没装上，
NHANES就没有这个烦恼，可以疯狂冲锋冲锋
利用公开数据库发文章，最重要的就是要知道数据库的数据组成，
他有那些数据，才能知道我可以利用些什么样子的数据进行idea构思。
NHANES是关于营养调查的健康和营养的信息，是一个横断面的调查。
从网站上我们可以看到，数据内容是非常丰富的。
里面有不同的年份，比如“2013-2014”，我们叫一个周期，
因为NHANES每2年上传一次相关数据。
每一个周期里面有很多数据，但是我们主要利用的是（Data, Documentation, Codebooks），
里面是包括了人口统计学、饮食数据、体格检查、实验室数据、问卷调查和Limited Access Data，
我们最常用的是前5个，
Limited Access Data数据需要申请，需要的批准候才行。
点击进去后就可以看到Doc File和Data File，
我们可以通过Doc File刊这个数据集的一些基本介绍，
点击Data File就能下载数据，
然后利用R或者SPPS就能打开这个XPT的数据集文件
因为后面也会用得到NHANES里面的数据，
所以我花了一些时间把所有的周期的所有数据全部下载完了哈哈哈
这个工作量还是很大的
好啦，今天的分享就到这里啦！

Published by wang

Leave a Reply Cancel reply