在挑战的第三天和第四天,我们的任务是进行数据提取和数据清洗。由于前期已经将所有需要的数据下载完毕,这两天的重点是使用代码从这些数据中提取所需的数据,并进行必要的清洗。数据提取策略:1. 确定需要提取的数据:首先要明确目标期刊和目标文献,确定我们关注的是TyG这个指标(X),以及不同的研究人群和关注的疾病(Y)。根据Day 1的选题策略,我们知道TyG和Y在2015-2018这些周期中存在,因此我们只需要提取这些周期的数据。2. 确定协变量:根据既往文献和目标期刊的要求,确定需要提取的协变量。例如,性别、年龄、身高、体重、血压、高血压、糖尿病、吸烟史等。将这些变量列成表格,做到心中有数。3. 数据位置:回顾Day 2的任务内容,了解数据在NHANES数据库中的位置。比如,TyG的组成部分TG和FBG在实验室数据中,而其他协变量可能在人口统计学或问卷调查数据中。 数据提取和清洗:1. 使用代码提取数据:利用R或Python等编程语言,编写脚本从下载的数据文件中提取所需的数据。这可能涉及到读取多个文件,提取特定列,并进行合并。2. 数据清洗:在提取数据的过程中,需要对数据进行清洗。这包括处理缺失值、异常值、数据类型转换等。确保数据的准确性和一致性。3. 明确协变量定义:对于每个协变量,需要明确其定义和计算方法。例如,高血压的确定可能需要考虑是否正在服用降压药、医生诊断、或血压测量值的平均值。这可能需要从数据库中提取多个相关数据点,并进行综合计算。4. 数据合并:将提取的各个协变量数据进行合并,形成一个完整的数据集,为后续的分析做好准备。 数据提取和清洗的重要性:数据的提取和清洗是公开数据库研究中非常关键且具有挑战性的步骤。虽然这个过程可能会耗费大量时间,但它是确保研究质量的基础。只有当数据清晰、准确时,后续的统计分析和结果解释才会更加可靠。 总结:通过这两天的努力,我们将完成数据的提取和清洗工作,为接下来的数据分析打下坚实的基础。正如我们所知,公开数据库的文章重点在于选题(选择指标和idea)和数据提取。这也是为什么我们在前期花费大量时间进行初步检索和确定目标期刊的原因。明天,我们将进入数据分析阶段,继续推进我们的挑战!
今天给大家分享一篇在 2024年6月发表在《Clinical Nutrition》(1区,IF=6.6)的文章。本文这项研究利用了美国国家健康和营养调查(NHANES)2011–2018年的数据,探讨了膳食中活微生物摄入量与肌少症风险之间的关系。暴露:本研究的暴露变量是膳食中活微生物的摄入量,将活微生物摄入量分为三个等级:低、中、高。这一分类基于参与者通过饮食摄入的活微生物的数量。活微生物主要来自发酵食品,它们被认为可以通过与肠道黏膜表面的相互作用来调节免疫系统,增强肠道功能,从而可能对抗肌肉质量和功能的丧失。结局:研究的主要结局是肌少症的风险,肌少症是一种随着年龄增长而出现的肌肉减少症状,通常表现为肌肉质量和力量的下降。本研究使用了美国国立卫生研究院(NIH)的定义来确定肌少症,即根据骨骼肌肉量与体重指数的比值来诊断(男性<0.789,女性<0.512)。肌少症与多种不良健康结果相关,包括生存率降低、跌倒风险增加、代谢问题和认知功能减退等。
光速科研-SCI写作训练营,8.1号开课~帮助咱们的师妹师弟跑代码,做文章指导~(确保师妹师弟完成第一篇SCI和掌握SCI攥写的能力~)
今日进展:继昨天确定了目标期刊和文献后我对选定的主题进行了深入的评估,判断其可行性选题是任何一个研究中最重要的一步选对了就是事半功倍选错了就是一切努力都可能白费只要确定主题有研究价值我们就能信心满满地攻克所有方法学难题毕竟,“所有方法学都一定会被掌握”而且“框架写作法”会快射上手成稿 接着,我下载并精读了几篇基于GBD趋势性分析的高分经典文献发现结果展示部分大同小异主要区别在于研究的疾病不同写作风格和结构也有共通之处,那么,我该重点分析哪些具体内容呢? 通过阅读目标期刊的相关文献,我明确了需要完成的内容:–发病率和年均百分比变化(AAPCs)–患病率和AAPCs–DALYs率和AAPCs–全球发病率地图–新病例数量变化–发病率、患病率和DALYs率的趋势分析–发病率与社会人口指数(SDI)的关系 挑战还在继续,欢迎大家一起围观留言学习,保持住这股冲劲,一起加油加油!
文章题目:J-shaped association of dietary catechins intake with the prevalence of osteoarthritis and moderating effect of physical activity: an American population-based cohort study DOI:10.1186/s13098-023-01226-3 中文标题:膳食儿茶素摄入量与骨关节炎患病率呈 J…
文章题目:Global, regional, and national burden of inflammatory bowel disease and its associated anemia, 1990 to 2019 and predictions to 2050: An analysis of the global…
挑战的第二天,我们的主要任务是深入了解NHANES数据库的结构并进行数据提取。无论是NHANES、MIMIC还是eICU,掌握数据库的存储结构是利用这些公开数据库的第一步。 NHANES数据库的特点:1. 数据获取简单:在“数据为王”的时代,NHANES数据库的这一特点显得尤为重要。一旦了解了数据结构,数据清洗也会变得更加容易。2. 数据周期性:NHANES数据库每两年进行一次调查并上传数据,每个周期包括人口统计学、饮食数据、体格检查、实验室数据、问卷调查和Limited Access Data。其中,Limited Access Data需要申请使用,但前五个板块的数据已经足够我们发表相关的SCI文章。3. 数据文件:每个周期的数据集都包含Doc File和Data File。Doc File提供了数据集的基本介绍,如每一列指标的含义、测量方法及数据中的编码说明。Data File则是实际的数据文件,可以通过R或SPSS等工具打开。数据提取示例:以我关注的TyG指标为例,TyG是一个复合指标,计算公式为\[ \text{TyG} = \ln(\text{TG (mg/dL)} \times \text{FBG (mg/dL)} / 2) \]。我需要从实验室数据中下载TG(甘油三酯)和FBG(空腹血糖)数据,然后通过上述公式进行计算。 数据提取策略:1. 下载Doc…