
冲刺高分!挑战7天一篇机器学习SCI!day3~4!
Day 3-4:文献精读+数据准备+代码准备

机器学习到底在分析什么?
大家可能会有这样的疑问
一篇机器学习相关的文章到底什么最重要呢
对于我们临床医生来说

让我去解释算法、去敲代码是“对牛弹琴”的
所以我们的重心要调整到数据和结果的解释
而不是纠结算法到底是什么样的
这个我们稍微能懂一点儿就可以
能跑通代码、能跑的出来结果、能够对图片进行解读
这是我们医疗工作者应该关注的
数据哪里来?

可以是自己科室的既往数据
也可以是以前发过的文章的数据
也可以是公开数据库的数据
我们这次挑战使用的是nhanes数据
因为前面单独挑战过nhanes
我们就不过多的介绍nhanes了
总体来说,就是一个同样的数据集的不同处理方式
那模型又是什么?

XGBOOST这些都是对应的一个模型
这个我们可以一定程度上忽略
在医学上不会过分关注算法
只要能用就行
也就是数据集替换了过后能够跑的通代码
比较重要的就是SHAP,
这是最近特别重要的一个新的发高分的点
简单来说,SHAP是一种用于解释机器学习模型预测结果的方法
最大的特点是预测结果分解为每个特征的贡献,
为模型提供全局和局部的可解释性
可以观察到每个特征变量对结局的影响大小
方法学的平移
这个点希望大家在未来的科研工作中都能有新的体会
数据准备好啦!
代码准备好啦!
继续加油呀!
