医学生速看!挑战7天完成一篇NHANES,Day 2!
挑战丝毫不能停,Day2主要任务:了解数据库结构+数据提取
不管是NHANES数据库、还是MIMIC数据库、还是eICU数据库。。。
任何一个公开数据库第一步都需要了解数据的储存结构
NHANES数据库的最大特点是数据获取简单
这在现在这个“数据为王”的时代多么重要
也就是说了解了数据的结构,数据的清洗就会非常容易
MIMIC以前也尝试过,不过数据量太大了
导致数据安装需要非常长的时间,不太友好
NHANES就没有这个烦恼
有那些数据,才能知道我可以利用些什么样子的数据
从网站上我们可以看到,数据内容非常丰富
里面有很多不同的年份,比如“2011-2012”,我们叫一个周期
每两年进行一次调查并上传数据
每一个周期有包括了:人口统计学、饮食数据、体格检查、实验室数据、问卷调查和Limited Access Data
Limited Access Data数据需要申请,需要申请获批后才能使用
但是前面5个板块的数据对于我们发相关的SCI文章已经绰绰有余
以demo数据示例:
点击进去后就可以看到Doc File和Data File,
Doc File是这个数据集的基本介绍
比如每一列(也就是每一列的指标代表什么意思、具体如何测量、数据中的123分别代表什么)
点击Data File就能下载到该数据,
然后利用R或者SPPS就能打开这个XPT的数据集文件
了解这个对于我们写NHANES文章有什么作用呢?
比如我现在我关注的指标是TyG
通过文献检索发现TyG是一个复合指标
TyG=Ln [TG (mg/dL) × FBG (mg/dL)/2]
我需要下载TG和FBG再通过上面的公式进行计算
TG和FBG肯定都在实验室数据里面
我就去Lab Data的Doc File查看并下载
因为后面也会用得到NHANES里面的数据,
如果自己每次做一个研究就需要从里面下载相关的数据就会非常的麻烦
所以我在前期花了一些时间把NHANES中所有的周期的所有数据全部下载到本地
后续的数据提取就可以直接用代码提取,会非常的方便
好啦,今天的分享就到这里啦!