医学生速👀挑战7天完成一篇NHANES,Day 3-4!

Day 3-4任务:数据提取+数据清洗。因为前期已经把所有数据都下载好了我的这两天的任务就是使用代码从下载的数据中提取我需要的数据那问题来了,怎么确定需要提取些什么数据?这就回到Day 1中目标期刊、目标文献的确定因为我们关注的都是TyG这个指标(X),只是研究人群、关注疾病(Y)不一样在具体提取之前需要知道X和Y分别在哪些周期里面有比如X在2013-2014,2014-2015里面有,Y在2011-2012,2013-2014里面有那就取交集,只需要提取2013-2014这一个周期数据就行因为要分析X和Y之间的关系,XY没有怎么可能行我的研究中TyG和Y在只有在2015-2018这些周期里面存在所以我只需要提取里面这2个周期的数据 那协变量的确定就可以从既往的文献中获得:我的这篇文章就需要以下协变量:性别、年龄、身高、体重、收缩压、舒张压(DBP)、高血压(HTN)、糖尿病(DM)和吸烟史。丙氨酸氨基转移酶(ALT)、天门冬氨酸氨基转移酶(AST)、血清肌酐(Scr)、总胆固醇(TC)、甘油三酯(TG)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)、空腹血糖(FBG)做一个表格将需要提取的哪些变量都放进去,做到心中有数(这里提一句的就是,不可能将所有的协变量都完全考虑进去借鉴别人文章,言之有理即可) 我需要提取这么多的数据,就需要知道数据在哪里?又回到Day 2的任务内容然后就是使用代码提取和数据的合并这里又有一点需要注意就是每一个协变量的定义一定要明确清楚比如高血压开起来只有“是”和“否”但是高血压的确定有多种方法:目前正在口服降压药;医生告诉你有高血压;平均血压大于140/90mmHg:血压值在数据库里面是3次,所以需要提取这3次值再自己求平均值。也就是说某一个协变量可能需要提取很多的数据进行综合组成。工作量不会很小,当然一区文章也不是捡来的 数据的提取和清洗是所有公开数据库都非常重要和棘手的部分需要花费很多的时间,但是一切都是值得的只要数据清晰了,后面的分析没啥困难公开数据库的文章重点就是选题(选择指标和idea)+数据提取这就是我花了很多的时间进行初步检索确定目标期刊、选题的意义今日任务完成,一起加油!

今天给大家分享一篇在 2024年1月发表在《Chinese Medical Journal》(1区,IF=7.5)的文章

今天给大家分享一篇在 2024年1月发表在《Chinese Medical Journal》(1区,IF=7.5)的文章。本文这项研究利用了双样本孟德尔随机化方法,探讨了腰围与房颤之间的因果关系。暴露:本研究的暴露变量是腰围,这是一个衡量腹部肥胖的一个重要指标,反映了个体腹部脂肪的积累情况。结局:研究的主要结局是房颤,这是一种常见的心律失常,表现为心房快速而无规律的收缩。房颤与多种严重的心血管事件有关,包括中风、心力衰竭和死亡。

这篇文章发表于2023年,发表在《Journal of the American Heart Association》(1区,IF=5.0)上,属于心血管健康领域的学术期刊

这篇文章发表于2023年,发表在《Journal of the American Heart Association》(1区,IF=5.0)上,属于心血管健康领域的学术期刊。本文这项研究利用了CARDIA(Coronary Artery Risk Development in Young Adults)研究的数据,探讨了心血管健康(CVH)评分与早期和晚期糖尿病发病以及随后糖尿病血管并发症之间的关联。暴露:研究的暴露因素是美国心脏协会提出的心血管健康(CVH)评分,该评分基于7个健康行为和因素,包括吸烟、身体质量指数(BMI)、体力活动、饮食质量、总胆固醇、血压和空腹血糖。结局:研究的主要结局是糖尿病的发病,包括早期发病(小于40岁)和晚期发病(40岁及以上),以及糖尿病后的微血管和大血管并发症,如冠状动脉钙化(CAC)、心血管疾病(CVD)、慢性肾病(CKD)、糖尿病视网膜病变和糖尿病神经病变。

医学生速看!挑战7天完成一篇NHANES,Day 2!

挑战丝毫不能停,Day2主要任务:了解数据库结构+数据提取不管是NHANES数据库、还是MIMIC数据库、还是eICU数据库。。。任何一个公开数据库第一步都需要了解数据的储存结构NHANES数据库的最大特点是数据获取简单这在现在这个“数据为王”的时代多么重要也就是说了解了数据的结构,数据的清洗就会非常容易MIMIC以前也尝试过,不过数据量太大了导致数据安装需要非常长的时间,不太友好NHANES就没有这个烦恼 有那些数据,才能知道我可以利用些什么样子的数据从网站上我们可以看到,数据内容非常丰富里面有很多不同的年份,比如“2011-2012”,我们叫一个周期每两年进行一次调查并上传数据每一个周期有包括了:人口统计学、饮食数据、体格检查、实验室数据、问卷调查和Limited Access DataLimited Access Data数据需要申请,需要申请获批后才能使用但是前面5个板块的数据对于我们发相关的SCI文章已经绰绰有余 以demo数据示例:点击进去后就可以看到Doc File和Data File,Doc File是这个数据集的基本介绍比如每一列(也就是每一列的指标代表什么意思、具体如何测量、数据中的123分别代表什么)点击Data File就能下载到该数据,然后利用R或者SPPS就能打开这个XPT的数据集文件 了解这个对于我们写NHANES文章有什么作用呢?比如我现在我关注的指标是TyG通过文献检索发现TyG是一个复合指标TyG=Ln [TG (mg/dL) × FBG (mg/dL)/2]我需要下载TG和FBG再通过上面的公式进行计算TG和FBG肯定都在实验室数据里面我就去Lab Data的Doc File查看并下载因为后面也会用得到NHANES里面的数据,如果自己每次做一个研究就需要从里面下载相关的数据就会非常的麻烦所以我在前期花了一些时间把NHANES中所有的周期的所有数据全部下载到本地后续的数据提取就可以直接用代码提取,会非常的方便 好啦,今天的分享就到这里啦!

今天给大家分享一篇在 2023年12月发表在《Diabetology & Metabolic Syndrome》(2区,IF=3.4)的文章

今天给大家分享一篇在 2023年12月发表在《Diabetology & Metabolic Syndrome》(2区,IF=3.4)的文章。本文这项研究利用了美国国家健康和营养调查(NHANES)2001–2018年的数据,探讨了胰岛素抵抗的代谢评分(METS-IR)指数与尿失禁(UI)之间的关系。暴露:本研究的暴露变量是METS-IR指数,这是一个新颖的评估胰岛素抵抗的指标,通过几个非空腹胰岛素的实验室指标和一个容易测量的人体测量参数来计算。结局:研究的主要结局是尿失禁的发生,包括压力性尿失禁(SUI)、急迫性尿失禁(UUI)和混合性尿失禁(MUI)。

医学生速看!挑战7天完成一篇NHANES,Day 1!

最近因为科室安排需要前往西藏路途中由于过于无聊回望走过的这些年“临床”和“科研”到底哪个重要?我想不出答案只知道:发文章不能停所以我在拉萨写下这次的挑战继上次挑战了meta分析和GBD,收获了非常高的关注度,本次挑战7天完成一篇NHANES数据库SCI! Day 1任务:明确目标期刊+初步检索NHANES数据库中包括了非常多的横断面调查数据包括了人口统计学、饮食数据、体格检查、实验室数据。。。这种基于公开数据库的挖掘的难点在于选题的时效性一定是有了想法就要马上去做只要确定可行性,具体的数据提取和数据分析都是体力活 选题:需要确定目标期刊、深入阅读目标期刊的文献比如Cardiovascular Diabetology杂志就非常喜欢 TyG(Triglyceride-glucose index)这个指标这也是我这次想要挑战的指标我换一个研究人群、换一个关联指标就是一篇新的文章我首先用“NHANES and Triglyceride-glucose index”进行了检索发现目前文章非常多,有132篇,且基本都是为高分文献因为我是心内科,所以就把132篇文章的X和Y分别提取出来发现我关注的Y还没有人写过所以就定下目标期刊为Cardiovascular Diabetology深入了解这个杂志,可不是水刊,最新的影响因子是1区8.5分所以最后就挑战TyG和一个心血管指标Y的相关性下载了几篇类似的文献深入学习目标期刊的风格(DOI: 10.1186/s12933-023-02115-9) 最后欢迎大家围观一起挑战一起写文章!我们明天见