挑战5天光速完成一篇NHANES预测模型,Day 3

Day3任务:数据提取与清洗。

前期我已经把所有的数据都下载好啦,
现在主要的目标就是进行数据的提取清洗,
我们用R将所需要的数据提取出来。

在第二天我们已经把所需要的数据的具体信息都整理好啦,
这个表格对我们的数据提取至关重要~
因为我做的是目标疾病的死亡率的预测模型,
所以要考虑的主要有三个方面:
目标疾病
死亡的信息
需要考虑的变量

因为之前以及熟悉过这个代码啦,所以提数据的时候很easy~
用代码提啊提,很快就搞完了。
需要花一点时间的地方就是数据的清洗,
做预测模型和普通的NHANES在数据清洗部是一样的,

比如说高血压看起来只有是和否,
但实际上需要依靠多个数据一起来定义:
目前正在口服降压药 2)血压大于140/90mmHg(取平均值) 3)被医生告知有高血压
工程还是很浩大滴!
但做多了也就熟练啦~猛猛一顿筛选就搞定!

整理好了数据以后,后面的分析实际上是非常简单的,
选题才是最重要、最费时间的,
也是最容易浮躁滴,静下来,方向对了,就一定能出成果。
一起加油呀~

Leave a Reply

Your email address will not be published. Required fields are marked *