挑战7天光速完成一篇NHANES,Day 3-4!
进度汇报:数据下载+数据清洗。
Day2的时候我把所有的数据都下载好了,
现在就是数据清洗啦,
任何一个公开数据库最费时费力的就是数据清洗了
我打算用R来获取相关的数据。
获取的数据可以用来构建一个自己的数据库,
我换个指标,即换个指标、换个研究人群,
就又能有一篇新的文章。
在提取变量之前我们需要确定需要提取什么数据,
处理你重点关注的指标(X),和关注的疾病(抑郁,Y),还有一些协变量(Z),
具体需要哪些协变量可以根据既往的文献中获得。
我就提取了:年龄、性别、种族、教育程度、婚姻状况、贫困收入比率、体重指数(BMI)、肾小球滤过率(eGFR)、睡眠持续时间、饮酒、吸烟状况、心血管疾病、高血压、糖尿病、高脂血症和抗抑郁药使。
所以说,数据提取是公开数据库中最费时费力的,
但是有代码的话,也还好,毕竟一二区的文章也不是大风刮来的
使用代码提啊提,终于用了2天的时间搞完了
因为比如说高血压看起来只有是和否,但实际上定义有很多:目前正在口服降压药或血压大于140/90mmHg,其中血压值是由受过培训的人员连续测量三个血压读数,并计算这三个读数的血压平均值。那么也就意味着,需要提取更多的数据来综合组成这个协变。
工程还是很浩大滴
只要数据清晰了,后面的一切都好说,没什么复杂和困难的,重点就是选题(选择指标和idea)+数据提取
这就是我花了很多的时间进行初步检索确定目标期、选题的意义
千万不要一来就闷头开跑,
一起加油呀~