
这种影响因素的分析思路真的太有意思了❗
各位医学er们,最近,我读到了一篇很有意思的影响因素类文章,分享给大家!
说是影响因素分析,但实质是预测模型的构建与验证,不过有趣的点就在于这篇文章有预先根据理论和现有证据去选择了两个重要变量(也就是作者们最关心的两个变量),其他的则与预测模型研究流程基本一致。
✅文章题目是:Effects of Job Crafting and Leisure Crafting on Nurses’Burnout:A
Machine Learning-Based Prediction Analysis
工作重塑和休闲重塑对护士职业倦怠的影响:基于机器学习的预测分析
✅发表在JNM(中科院护理1区)
✅作者是我们国内的研究团队
文章写得特别棒,思路也比较清晰,强烈推荐大家下载原文(OA文献)。
读完真的特别佩服作者们的智慧!
预测模型本质以数据为驱动,机器学习更是如此,但在这篇文章中,作者以一种独特的方式切入预测模型。我个人将它总结为“理论驱动+数据驱动”相结合(仅个人感受)。
另外,这篇文章的因变量是职业倦怠,用的是问卷测量,虽不是临床诊断金标准,但也不失为一种选题技巧,且作者还检验了共同方法偏差。
最后,还想给大家说的是,预测模型还有很多可以挖掘的地方!对于医学生来说是一个不错的发文方式!自己没有数据还也可以挖掘公共数据库。
宝藏公共数据库有:
🚩GBD数据库,适合全科
🚩SEER数据库挖掘,适合癌症
🚩NHANES数据库挖掘,适合全科
🚩MIMIC数据库挖掘,适合重症研究
医学SCI无论什么时候都是医学生的硬通货,求职、升学、评职称都会需要“科研成果”,抓住科研风口,趁早多给自己积累几篇SCI,没有想象中难!
像挖掘临床公共数据库,无需实验,无需自己收集数据,你缺的无非就是一位有经验的人把他的挖掘经验教给你,带着你系统学习,前人已经为你踩好了坑,得出了能快速拿到结果的经验,是不需要你自己去“开天辟地”的!
请稍等,我将严格按照图片内容转写文字。
各位医学er们,今天有坚持看文献吗?不要懈怠噢!
最近,我读到了一篇很有意思的影响因素类文章,分享给大家!
说是影响因素分析,但其实是预测模型的构建与验证,不过有趣的点就在于这篇文章有预先根据理论和现有证据去选择了两个重要变量(也就是作者们最关心的两个变量),其他的则与预测模型研究流程基本一致。
Research Article
Effects of Job Crafting and Leisure Crafting on Nurses’ Burnout: A Machine Learning-Based Prediction Analysis
Yu-Fang Guo, Si-Jia Wang, Virginia Plummer, Yun Du, Tian-Ping Song, and Ning Wang
🔺文章题目是: 工作重塑和休闲重塑对护士职业倦怠的影响:基于机器学习的预测分析
🔺发表在JNM(中科院护理1区)
🔺作者是我们国内的研究团队
文章写得特别棒,思路也比较清晰,强烈推荐大家下载原文(OA文献)。
下面我对这篇文献重点进行简单的介绍。
研究方法
2.6. Data Analyses
Data were analyzed using SPSS 24.0, with descriptive analysis, t-tests (to compare burnout scores between two groups), ANOVA (to compare burnout scores’ differences among three or more groups), and correlation tests (to evaluate the correlations among the measured variables). Kurtosis and skewness were used to describe the normal distribution of measured variables.
Values for kurtosis were from -0.237 to 1.002, and values for skewness were between -0.724 and 0.392, indicating that, generally, the data were normally distributed.
According to the Harman single-factor analysis, 36.7% of the variance could be explained by one factor, which suggests that no significant common method variance was found in the study. K-means clustering analysis was used to divide burnout into a low burnout group and a high burnout group.
A computer-generated random number sequence divided the data into training (70%) and validation (30%) cohorts.
Python 3.9 was employed to conduct four machine learning algorithms (logistic regression model, support vector machine, random forest, and gradient boosting tree) to obtain models for predicting nurse burnout.
The logistic regression model is one kind of generalized linear regression categories.
The burnout prediction models included 16 variables (independent variables: job crafting and leisure crafting; covariates: significant demographic characteristics; dummy variables: eight variables).
Five repetitions of the 10-fold cross-validation were conducted to optimize the model parameters.
The area under the receiver operating characteristic curve (AUC), accuracy, sensitivity, specificity, and Brier were calculated to compare the predictive performance of the models.
Brier represents the average-squared distance from the predicted probability of the model to the actual probability. The lower the Brier scores, the better the model performance. A two-sided p-value ≤0.05 was considered statistically significant.
研究结果
Table 1 就不截图啦,我们直接来看聚类分析,非常有意思。
我们通常很少看到预测模型或者影响因素分析研究中用了聚类算法的(除非是用于无监督学习建模),结果如下:
Table 3: K-means clustering analysis for burnout.
Groups | n | Final cluster centers | Scores |
---|---|---|---|
Low burnout group | 678 | 1.24 | 0.00–2.10 |
High burnout group | 557 | 2.97 | 2.11–5.85 |
模型性能(验证集):
可以看到基本差别不大,真要比较的话,梯度提升树(Gradient Boosting Tree) 的AUC最高,Brier评分最低,表明该模型更为可靠。
Table 4: Model performance in predicting burnout in the validation cohort.
Model | AUC | Accuracy | Sensitivity | Specificity | Brier |
---|---|---|---|---|---|
Logistic | 0.809 | 0.647 | 0.128 | 0.995 | 0.253 |
SVM | 0.803 | 0.702 | 0.470 | 0.928 | 0.187 |
Random Forest | 0.812 | 0.739 | 0.443 | 0.920 | 0.168 |
Gradient Boosting Tree | 0.821 | 0.739 | 0.470 | 0.919 | 0.161 |
有趣的是,文章关注的重点是**工作创造(Job Crafting)和休闲创造(Leisure Crafting)**两个自变量的表现,但实际上 logistic 回归模型把休闲创造拼掉了(不显著),其他3种机器学习模型都把它两的影响力(重要性)排到了前五。
小结:
读完真的特别佩服作者们的智慧!
预测模型本质以数据为驱动,机器学习更是如此,但在这篇文章中,作者以一种独特的方式切入预测模型。我个人将它总结为 “理论驱动+数据驱动” 结合(仅个人感受)。
另外,这篇文章的因变量是职业倦怠,用的是问卷测量,虽然不是临床诊断金标准,但也不失为一种选题技巧,且作者还检验了共同方法偏差。
最后,还想给大家说的是,预测模型还有很多可以挖掘的地方!对于医学生来说是一个不错的发文方式!自己没有数据也可以挖掘公共数据库。
宝藏公共数据库有:
📌 GBD数据库,适合全科
📌 SEER数据库挖掘,适合癌症
📌 NHANES数据库挖掘,适合全科
📌 MIMIC数据库挖掘,适合重症研究
医学SCI无论什么时候都是医学生的硬通货,求职、升学、评职称都需要“科研成果”,抓住科研风口,趁早多给自己积累几篇SCI,没想象中难!
像挖掘临床公共数据库,无需实验、无需自己收集数据,你缺的无非就是一位有经验的人把他的挖掘经验教给你,带着你系统学习,前人已经为你踩好了坑,得出了能快速拿到结果的经验,是不需要你自己去“开天辟地”的!