冲刺一区!挑战7天完成NHANES+MR,Day 3-4!

进度汇报:数据下载+数据清洗。

Day2的时候我列好了需要下载的所有数据,

现在只需要用代码提取出来就好啦~

列表格的时候就已经确定好了周期,

我一般在提取的时候,

会先把每个数据的所有周期都先合并在一起,

也就是在下方加数据,

然后再根据SEQN,在右边合并数据。

最后再提取所需要的变量名就完成啦~

这里提取数据的时候,

每个人都有不同的喜好,

大家也可以去试试不同的方法!

既然打开R了,

就顺便把批量筛选出来的MR的结果跑了一下,

结果还不错,是可以用滴~

数据提取完后就是数据的清洗咯,

数据的清洗掌握了技巧之后也是非常快的,

主要用到的就是excel的筛选功能,

在第2天列的表格中,

有明确每个变量的类型,

如果是数值变量就不需要管他,

如果是分类变量就需要手动分类~

不过虽然看起来简单,

工程量还是很浩大滴!

因为比如说高血压看起来只有是和否,但实际上定义有很多:目前正在口服降压药或血压大于140/90mmHg,其中血压值是由受过培训的人员连续测量三个血压读数,并计算这三个读数的血压平均值。那么也就意味着,需要提取更多的数据来综合组成这个协变量。

使用代码提呀提,用excel筛呀筛,

终于用2天时间搞完了!

只要数据清晰了,后面的一切都好说,没什么复杂和困难的,

重点就是选题(选择指标和idea)+数据提取

这就是我花了很多的时间进行初步检索确定目标期刊、选题的意义

千万不要一来就闷头开跑,

一起加油呀~~

Leave a Reply

Your email address will not be published. Required fields are marked *