
冲刺一区!挑战7天完成NHANES+MR,Day 3-4!
进度汇报:数据下载+数据清洗。

Day2的时候我列好了需要下载的所有数据,
现在只需要用代码提取出来就好啦~
列表格的时候就已经确定好了周期,
我一般在提取的时候,
会先把每个数据的所有周期都先合并在一起,
也就是在下方加数据,
然后再根据SEQN,在右边合并数据。
最后再提取所需要的变量名就完成啦~

这里提取数据的时候,
每个人都有不同的喜好,
大家也可以去试试不同的方法!
既然打开R了,
就顺便把批量筛选出来的MR的结果跑了一下,
结果还不错,是可以用滴~

数据提取完后就是数据的清洗咯,
数据的清洗掌握了技巧之后也是非常快的,
主要用到的就是excel的筛选功能,
在第2天列的表格中,
有明确每个变量的类型,
如果是数值变量就不需要管他,
如果是分类变量就需要手动分类~

不过虽然看起来简单,
工程量还是很浩大滴!
因为比如说高血压看起来只有是和否,但实际上定义有很多:目前正在口服降压药或血压大于140/90mmHg,其中血压值是由受过培训的人员连续测量三个血压读数,并计算这三个读数的血压平均值。那么也就意味着,需要提取更多的数据来综合组成这个协变量。
使用代码提呀提,用excel筛呀筛,
终于用2天时间搞完了!

只要数据清晰了,后面的一切都好说,没什么复杂和困难的,
重点就是选题(选择指标和idea)+数据提取
这就是我花了很多的时间进行初步检索确定目标期刊、选题的意义
千万不要一来就闷头开跑,
一起加油呀~~