冲刺一区!挑战7天完成NHANES+MR,Day 2!
我的新挑战继续进行~
第2天主要任务:数据库的认识+整理excel
在第一天挑战时,
我就通过我们的批量筛选法找到了目标暴露和结局,
所以今天只需要确定好协变量后,
就可以开始动工啦~
利用公开数据库发文章,
最重要的就是要知道数据库的数据组成,
有哪些数据,
才能知道我可以利用些什么样子的数据进行idea构思。
NHANES是关于营养调查的健康和营养的信息,
是一个横断面的调查。
从网站上我们可以看到,
数据内容是非常丰富的。
而且它的数据获取相对来说比较的简单,
非常方便就能下载到原始数据,
可以快速验证自己的选题!
在下载和清洗数据之前,
最重要的一步就是整理好之后下载需要参照的excel表。
很多师弟师妹刚上手就开始提取数据,
结果提取到一半还是稀里糊涂,
不知道接下来该怎么操作。
接下来就来聊聊这个表格中最关键的一些信息:
1.变量名(年龄、性别、种族等)
2.变量的类别(数值变量/分类变量),比如高血压定义为有或者无,那么就是分类变量。
3.NHANES中Component类别(DEMO、Questionnaire等)
4.NHANES中相关变量对应的Component(ALQ、SMQ等)
5.NHANES中的变量名(RIDAGEYR、RIAGENDR等)
这个表格整理好以后,
就可以根据我们事先下载好的数据来提取了!
我们事先已经将所有周期的所有数据都下载完了,
只需要用代码提取出自己需要的数据,
就可以来验证选题啦!
好啦,今天的分享就到这里啦!
大家的进度都到哪了呀~