冲刺一区！挑战7天完成NHANES+MR，Day 3-4！

进度汇报：数据下载＋数据清洗。

Day2的时候我列好了需要下载的所有数据，

现在只需要用代码提取出来就好啦～

列表格的时候就已经确定好了周期，

我一般在提取的时候，

会先把每个数据的所有周期都先合并在一起，

也就是在下方加数据，

然后再根据SEQN，在右边合并数据。

最后再提取所需要的变量名就完成啦～

这里提取数据的时候，

每个人都有不同的喜好，

大家也可以去试试不同的方法！

既然打开R了，

就顺便把批量筛选出来的MR的结果跑了一下，

结果还不错，是可以用滴～

数据提取完后就是数据的清洗咯，

数据的清洗掌握了技巧之后也是非常快的，

主要用到的就是excel的筛选功能，

在第2天列的表格中，

有明确每个变量的类型，

如果是数值变量就不需要管他，

如果是分类变量就需要手动分类～

不过虽然看起来简单，

工程量还是很浩大滴！

因为比如说高血压看起来只有是和否，但实际上定义有很多：目前正在口服降压药或血压大于140/90mmHg，其中血压值是由受过培训的人员连续测量三个血压读数，并计算这三个读数的血压平均值。那么也就意味着，需要提取更多的数据来综合组成这个协变量。

使用代码提呀提，用excel筛呀筛，

终于用2天时间搞完了！

只要数据清晰了，后面的一切都好说，没什么复杂和困难的，

重点就是选题（选择指标和idea）+数据提取

这就是我花了很多的时间进行初步检索确定目标期刊、选题的意义

千万不要一来就闷头开跑，

一起加油呀～～

Published by wang