冲刺一区!挑战7天完成NHANES+MR,Day 2!

我的新挑战继续进行~

第2天主要任务:数据库的认识+整理excel

在第一天挑战时,

我就通过我们的批量筛选法找到了目标暴露和结局,

所以今天只需要确定好协变量后,

就可以开始动工啦~

利用公开数据库发文章,

最重要的就是要知道数据库的数据组成,

有哪些数据,

才能知道我可以利用些什么样子的数据进行idea构思。

NHANES是关于营养调查的健康和营养的信息,

是一个横断面的调查。

从网站上我们可以看到,

数据内容是非常丰富的。

而且它的数据获取相对来说比较的简单,

非常方便就能下载到原始数据,

可以快速验证自己的选题!

在下载和清洗数据之前,

最重要的一步就是整理好之后下载需要参照的excel表。

很多师弟师妹刚上手就开始提取数据,

结果提取到一半还是稀里糊涂,

不知道接下来该怎么操作。

接下来就来聊聊这个表格中最关键的一些信息:

1.变量名(年龄、性别、种族等)

2.变量的类别(数值变量/分类变量),比如高血压定义为有或者无,那么就是分类变量。

3.NHANES中Component类别(DEMO、Questionnaire等)

4.NHANES中相关变量对应的Component(ALQ、SMQ等)

5.NHANES中的变量名(RIDAGEYR、RIAGENDR等)

这个表格整理好以后,

就可以根据我们事先下载好的数据来提取了!

我们事先已经将所有周期的所有数据都下载完了,

只需要用代码提取出自己需要的数据,

就可以来验证选题啦!

好啦,今天的分享就到这里啦!

大家的进度都到哪了呀~

Leave a Reply

Your email address will not be published. Required fields are marked *