医学科研挑战5天完成一篇NHANES,Day 3!

Day3任务:数据下载+数据清洗
任何一个公开数据库最费时费力的就是数据清洗了
我打算用R来实现,比stata方便很多
前期我就把所有的数据都下载好啦(非老大劲了)
现在主要的目标就是进行数据清洗
去我们下载好的数据中用R将所需要的数据提取出来
但在跑代码之前我们得知道自己需要哪些数据,
不然就算下载好的数据摆在我面前也无从下手~
主要有三个方面:
重点关注的指标X(HRR),关注的疾病(心血管疾病,Y),还有一些协变量(Z),
具体需要哪些协变量可以根据目标期刊里既往所发表的文献中筛选获得
并不是所有的协变量都需考虑进去,言之有理即可~
我这篇文章主要包括以下协变量:
年龄、性别、种族、教育程度、家庭收入与贫困比(PIR)、咖啡因摄入、总能量摄入、体重指数(BMI)、腰围、吸烟状态、饮酒状态、糖尿病、高血压和高脂血症。
因为之前比较熟悉这个代码啦,所以提数据的时候很easy~
用代码提啊提,用半天的时间就搞完了
不过有些数据还是要做的细致一点的~
比如说高血压看起来只有是和否,但实际上定义有很多:
目前正在口服降压药或血压大于140/90mmHg,其中血压值是由受过培训的人员连续测量三个血压读数,并计算这三个读数的血压平均值。那么也就意味着,需要提取更多的数据来综合组成这个协变量
工程还是很浩大滴!毕竟一区二区的文章也不是风刮来的
但做多了也就熟练啦~
猛猛一顿筛选就搞定!
只要数据清晰了,后面的一切都好说,没什么复杂和困难的,
重点就是选题(选择指标和idea)+数据提取
这就是我花了很多的时间进行初步检索确定目标期刊、选题的意义
千万不要一来就闷头开跑
欢迎大家围观见证,在评论区留下自己的想法和经验,我们下一篇进度汇报见!

Leave a Reply

Your email address will not be published. Required fields are marked *