冲刺一区！挑战7天完成NHANES+MR，Day 2！

我的新挑战继续进行~

第2天主要任务：数据库的认识+整理excel

在第一天挑战时，

我就通过我们的批量筛选法找到了目标暴露和结局，

所以今天只需要确定好协变量后，

就可以开始动工啦～

利用公开数据库发文章，

最重要的就是要知道数据库的数据组成，

有哪些数据，

才能知道我可以利用些什么样子的数据进行idea构思。

NHANES是关于营养调查的健康和营养的信息，

是一个横断面的调查。

从网站上我们可以看到，

数据内容是非常丰富的。

而且它的数据获取相对来说比较的简单，

非常方便就能下载到原始数据，

可以快速验证自己的选题！

在下载和清洗数据之前，

最重要的一步就是整理好之后下载需要参照的excel表。

很多师弟师妹刚上手就开始提取数据，

结果提取到一半还是稀里糊涂，

不知道接下来该怎么操作。

接下来就来聊聊这个表格中最关键的一些信息：

1.变量名（年龄、性别、种族等）

2.变量的类别（数值变量/分类变量），比如高血压定义为有或者无，那么就是分类变量。

3.NHANES中Component类别（DEMO、Questionnaire等）

4.NHANES中相关变量对应的Component（ALQ、SMQ等）

5.NHANES中的变量名（RIDAGEYR、RIAGENDR等）

这个表格整理好以后，

就可以根据我们事先下载好的数据来提取了！

我们事先已经将所有周期的所有数据都下载完了，

只需要用代码提取出自己需要的数据，

就可以来验证选题啦！

好啦，今天的分享就到这里啦！

大家的进度都到哪了呀～

Published by wang