
医学生速看!挑战7天完成一篇NHANES,Day 3-4!
进度汇报:数据下载+数据清洗。

在Day 2,我已经将所有的数据都下载好了,现在就是数据清洗的时候了。对于任何一个公开数据库来说,数据清洗都是最为费时费力的一环,但也是非常关键的步骤。我打算使用R来处理相关的数据,这样获取的数据可以用来构建一个自己的数据库。只要换个指标、换个研究人群,就又能有一篇新的文章诞生。

在开始提取变量之前,我们需要明确需要提取哪些数据。我特别关注的指标包括:年龄、性别、种族、教育程度、婚姻状况、贫困收入比率、体重指数(BMI)、肾小球滤过率(eGFR)、睡眠持续时间、饮酒、吸烟状况、心血管疾病、高血压、糖尿病、高脂血症和抗抑郁药使用等。确定需要提取的变量是关键的一步,而这些协变量的选择可以根据既往的文献中获得。数据提取是公开数据库中最耗时的环节之一,但有了代码的帮助,也能够顺利进行,毕竟一篇二区的文章也不是易如反掌的。

通过代码的提取,我终于在两天的时间内完成了数据清洗工作。有些变量看起来似乎只有是或否的情况,但实际上其定义却有很多细节。举个例子,对于高血压来说,定义不仅包括目前是否正在口服降压药或者血压是否超过了140/90mmHg,而且还需要考虑血压值的测量方式等。这就意味着需要提取更多的数据来综合组成这个协变量。这一工程的确是相当浩大的。

只要数据清洗完成,后续的工作就变得相对简单,没有什么复杂和困难的。而重点就在于选题(选择指标和idea)以及数据提取这两个方面。这也是我花了很多时间进行初步检索并确定目标期刊、选题的意义所在。在开始研究之前,一定要慎重考虑,千万不要一来就急于开跑。

一起加油吧!期待明天的进一步进展!