医学生速👀挑战7天完成一篇NHANES,Day 3-4!

Day 3-4任务:数据提取+数据清洗。
因为前期已经把所有数据都下载好了
我的这两天的任务就是使用代码从下载的数据中提取我需要的数据
那问题来了,怎么确定需要提取些什么数据?
这就回到Day 1中目标期刊、目标文献的确定
因为我们关注的都是TyG这个指标(X),只是研究人群、关注疾病(Y)不一样
在具体提取之前需要知道X和Y分别在哪些周期里面有
比如X在2013-2014,2014-2015里面有,Y在2011-2012,2013-2014里面有
那就取交集,只需要提取2013-2014这一个周期数据就行
因为要分析X和Y之间的关系,XY没有怎么可能行
我的研究中TyG和Y在只有在2015-2018这些周期里面存在
所以我只需要提取里面这2个周期的数据


那协变量的确定就可以从既往的文献中获得:
我的这篇文章就需要以下协变量:
性别、年龄、身高、体重、收缩压、舒张压(DBP)、高血压(HTN)、糖尿病(DM)和吸烟史。丙氨酸氨基转移酶(ALT)、天门冬氨酸氨基转移酶(AST)、血清肌酐(Scr)、总胆固醇(TC)、甘油三酯(TG)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)、空腹血糖(FBG)
做一个表格将需要提取的哪些变量都放进去,做到心中有数
(这里提一句的就是,不可能将所有的协变量都完全考虑进去
借鉴别人文章,言之有理即可)

我需要提取这么多的数据,就需要知道数据在哪里?
又回到Day 2的任务内容
然后就是使用代码提取和数据的合并
这里又有一点需要注意
就是每一个协变量的定义一定要明确清楚
比如高血压开起来只有“是”和“否”
但是高血压的确定有多种方法:
目前正在口服降压药;医生告诉你有高血压;平均血压大于140/90mmHg:血压值在数据库里面是3次,所以需要提取这3次值再自己求平均值。
也就是说某一个协变量可能需要提取很多的数据进行综合组成。
工作量不会很小,当然一区文章也不是捡来的

数据的提取和清洗是所有公开数据库都非常重要和棘手的部分
需要花费很多的时间,但是一切都是值得的
只要数据清晰了,后面的分析没啥困难
公开数据库的文章重点就是选题(选择指标和idea)+数据提取
这就是我花了很多的时间进行初步检索确定目标期刊、选题的意义
今日任务完成,一起加油!

Leave a Reply

Your email address will not be published. Required fields are marked *