挑战火热数据库,挑战7天完成一篇CHARLS!
Day 4-5任务:完成核心表格和图片
这两天主要任务是数据清洗(已经清洗好了)+数据分析(作图+做表)
数据库最难的、最费时间的就是数据清洗了
我们之前花了大量的时间进行数据清洗
现在来说也是非常方便的了
所以就是说
数据库是个宝
只要数据清晰,怎么挖都是paper
那问题来了,怎么确定我的文章中需要什么数据?
这就回到Day 1的时候目标文献的确定
因为我们关注的都是CVD这个人群
所以很多的协变量基本不会发生太大的变化
只是自变量的X这个指标会不一样
阅读高质量文献的重要性这个时候及凸显出来了
协变量从既往的文献中获得:
文章中都详细的说明了每一种变量的定义
这也是我们在写文章的时候需要放的内容
对于变量的定义来说有一些是要按照常规
一些也可以自己定义
不管是那种方式,都一定要十分的清晰
单独的变量还是数据组成的复合变量
然后就是使用数据的提取和合并
这需要一些时间整理成可以直接分析的数据
今天的所有表格和图片通过基础代码包很快就完成了
明天就要开启写作内容啦!