
导师建议: 12个要点 让预测模型 论文更出彩!
导师建议:
12个要点 让预测模型
论文更出彩!
从学术论文产出的角度来看,meta分析、公共数据挖掘和预测建模看似有相似之处,但从实际应用的角度来看,预测建模的实用性更为显著。
尽管每年有大量预测模型的研究文章发表,但真正能够应用于临床实践的却屈指可数。大多数模型在发表后便销声匿迹,未能发挥实际作用。
这一现象的原因复杂多样,包括模型本身的质量、临床医生的接受程度以及模型对患者治疗效果的影响等。
为此,今天我们推荐一篇发表在The Innovation Medicine上的文章,题为《Twelve practical recommendations for developing and applying clinical predictive models》。作者结合自身多年经验及开发的多个临床模型(其中大部分已成功应用于临床),提出了12条实用建议,旨在推动临床预测模型的落地应用。
撤稿缘由
撤稿通知显示:“主编已决定撤回该论文。出版商的调查表明,包括本文在内的多篇评论文章在短时间内集中提交,且存在强烈证据表明这些文本是由人工智能生成,但作者未作任何声明。这些文章违反了期刊的政策,因此被撤回。”根据撤稿观察网(Retraction Watch)的数据,被撤回的评论文章中,87篇由Saveetha大学的研究人员完成,其中35篇出自Saveetha牙科学院和医院的Hethesh Chellapandian和Sivakamavalli Jeyachandran之手。

本文概括了12条实用建议,内容涵盖预测指标的选择、样本量估算、预测模型的选取、变量筛选策略、模型验证与评价、模型影响评估、模型更新等。如需深入了解,请阅读原文或点击下方链接。
网址:https://www.the-innovation.org/article/doi/10.59717/j.xinn-med.2024.100105
现在,让我们一起来了解这12条建议的具体内容!

1.确定模型开发的必要性
在着手开发预测模型之前,必须首先评估其开发的必要性。这一步骤虽然基础,却常常被研究者忽视。关于模型必要性的评估,建议从两个关键方面进行考量:
首先,模型必须具有明确的临床应用价值和实施可行性;
其次,需要评估领域内现有模型的状况,如果已有大量功能相似的模型,更经济的做法是对现有模型进行验证或优化,而非重复开发,这样可以显著提高资源利用效率。
2、选择合适的预测变量
在预测变量的选择上,科学合理的筛选策略至关重要。建议从临床实践和统计分析两个角度进行综合评估:
从临床实践角度,预测变量应当基于可靠的医学理论或研究证据,同时优先选择获取便捷、成本较低的指标。
1、常用的预测变量包括人口统计学特征、疾病特征、病史信息、临床表现、实验室检查结果和遗传特征等。
2、此外,还需要注意变量的标准化测量,尽量选择客观性强、稳定性高的变量,以提高模型的可靠性。
从统计分析角度,建议考察变量的分布特征,对于变异程度过低的变量要谨慎选择。例如,对于二分类变量,若某一类别占比过高(如98%),除非有充分证据证明其预测价值,否则不建议纳入模型。
在建模过程中,如何处理高度相关的预测变量也是一个常见的技术难题。
该文深刻揭示了多重共线性的作用机制。在构建预测模型时,即便纳入高度相关的解释变量,模型的判别性能(通过ROC曲线等指标衡量)仍能保持稳定。然而,这种变量间的强关联会引发系数估计的严重偏差——本应显著的正向作用可能被错误估计为负值。因此,面向预测应用的模型可保留相关变量,但需要因果推断的模型必须通过方差膨胀因子检测等手段进行变量筛选。
3.确定合理的样本量
确定预测模型的适宜样本量可采取两种基本方法:经验参考标准与复合计算准则。
√经验参考标准强调EPP(每预测参数的事件数)的应用,而非传统的EPV(每变量的事件数),这主要解决变量与参数的概念混淆问题。
以具体实例说明:当引入连续型变量(如年龄)时仅需一个参数。但若添加年龄的二次项,参数数量升至两个。将年龄分为五分类变量时,需要四个参数进行编码。这些情况表明变量与参数并非一一对应,故基于变量数目估算样本量存在根本缺陷。
实际建模时,当参数总量超过10,每个参数分配20个事件的经验值通常足够。对于事件比例低于20%的情况,每个参数10个事件的标准也适用。
√复合计算准则需要综合五个维度:
首要确保结局概率估计的准确性(截距项精度),建议采用0.05的误差范围;
其次将平均绝对预测误差(MAPE)控制在5%以内;
第三要求全局收缩因子大于0.9以保持模型稳定性;
第四限定调整前后Nagelkerke R²差异不超过0.05;
最终选择各维度计算结果的最大值作为样本标准。
尽管这种多维度计算法理论上更严谨,但实际操作面临双重挑战:一是推荐参数值的非固定特性,二是现有文献难以提供预设参数,导致参数选择过程必然涉及主观判断。
4. 处理缺失值和异常值
临床预测模型构建过程中,数据质量问题需要重点应对。由于主要数据源来自医疗机构的真实诊疗系统(如电子健康档案、检验信息平台等),数据缺失与离群值现象普遍存在。科学处理这两类问题对保证模型可靠性至关重要。
针对数据缺失现象,首要任务是分析其形成原因。根据现代统计学理论,数据缺失机制可分为三类:完全无规律缺失(MCAR)、条件性随机缺失(MAR)以及系统性缺失(MNAR)。
数据缺失现象在实证研究中普遍存在,众多科研工作者针对该问题已展开系统探究。主要研究结论可归纳为以下三点:
1、首先,在MCAR机制(完全随机缺失)下,完整样本分析(CC)与多重插补技术(MI)均能保持相对准确的参数估计;
2、其次,当处于MAR机制(随机缺失)时,若协变量的缺失模式与其他观测变量或结局变量存在关联,这种关联程度越显著、缺失率越高,对模型评估结果产生的偏差就越大,此时MI方法较传统方法展现出更优的校正能力;
3、最后,面对MNAR机制(非随机缺失)的挑战,虽然MI技术并非最优解决方案,但其整体表现依然显著优于直接删除缺失数据的CC策略。
具体技术细节与实施方案建议查阅相关原始文献,本文限于篇幅不做展开论述。
关于数据异常值的识别处理,研究者推荐运用多维度检测方法进行综合分析。当识别出异常样本时,首要任务是核查数据采集或记录过程是否存在疏漏,若确认无误则推荐直接剔除。
该策略主要依据两方面的重要前提:
1、首先,异常样本在建模数据中的占比极低(基于研究者的实证观察,其比例普遍小于总样本量的千分之一或更低),故而移除这些样本对建模结果的干扰微乎其微;
2、其次,预测模型主要服务于常规群体量身定制,在真实应用场景中极少数异常个例的存在并不妨碍模型的核心预测效能。
5、变量变换与分箱技巧
在构建预测模型的过程中,研究者常需处理连续型自变量的建模问题。此时主要面临两种典型情境:
√ 自变量与因变量存在线性关联
传统回归模型通常预设连续性自变量与结局指标保持线性相关,此类变量可保持原始形态或通过数理转换(如指数运算、对数转换等)直接参与建模。
但实际操作中常面临两种困境:变量间关联模式难以明确辨识,或无法通过基础数学变换准确捕捉其真实关联形态。针对此类复杂情况,推荐采用非线性建模技术,包括但不限于分段多项式拟合(含分数次幂形式)或约束性三次样条函数等先进方法。
√ 自变量与因变量呈现非线性关联
医学研究领域普遍采用的替代策略是变量离散化处理,即通过统计学方法将连续变量转化为有序分类变量。具体操作包含等宽分箱、等频分箱或基于临床意义的分组等方式,将原始数据划分为若干具有临床解释性的亚组进行建模分析。
基于实践应用需求,研究者在变量离散化处理中着重提出了三项核心准则:
1、首要原则是将变量分为不少于三个组别,同时确保每个分组具有充足的样本数量;
2、分组阈值的确定需整合专业知识和数据分析结果,不宜单纯依赖统计分布特性或机械采用等距划分方法;
3、建议将分组处理后的模型与使用样条函数的模型进行效果比对,以验证两者在预测效能上不存在显著差异
6、锁定最佳模型
如何在临床场景中筛选最适配的预测建模工具?
需要特别指出的是,医疗实践中的模型选择需平衡多重维度。模型的预测精度固然重要,但决策透明性同样是医疗决策支持系统的核心要素。具有良好解释力的建模工具往往更容易被临床团队接受,并能有效整合到诊疗流程中。
若从算法适应能力和结果可理解性两个维度进行划分,当前主流建模技术可分为三大类别:基于统计推断的传统建模技术、智能化的数据驱动算法以及不依赖预设分布的分析框架。

在模型筛选过程中应以实际需求与使用环境为核心依据,当研究目标聚焦于变量解释性且拟服务于医疗决策支持时,推荐优先选用具有强解释性的传统统计模型,如岭回归或弹性网络方法;若研究重心完全集中于预测精度提升且无需关注特征贡献度,则建议采用基于数据驱动的非线性算法体系。
7、变量筛选黄金法则
从模型构建的实用价值出发,精简预测因子数量是提升模型可操作性的重要原则。但如何在简化模型结构的同时维持其预测效能?这正是本节变量筛选策略探讨的核心议题。针对不同规模的预测变量集,建议采用差异化的筛选路径:
1、对于低维数据集,线性回归框架下的筛选方法更具适用性;
2、当面临高维特征空间时,基于决策树的特征重要性评估方法更为高效。
值得注意的是,在运用广义线性模型(如Logit回归)进行筛选时,模型拟合优度指标(如Nagelkerke伪R方)常呈现较低数值特征。当处理具有多重共线性特征的大规模预测变量时,推荐优先采用具有L1正则化约束的回归模型(如Lasso回归),该算法通过参数收缩机制实现自动变量选择。特别需要指出的是,变量筛选过程不应单纯依赖数理统计方法,必须整合临床医学理论框架与既往研究成果进行综合判断。
在具体实施过程中,还需警惕两个常见误区:
(1)切忌采用单因素检验显著性水平作为唯一筛选标准,例如仅纳入单变量分析中达到预设显著性阈值的预测因子;
(2)不宜将假设检验的显著性程度机械等同于预测因子的贡献度排序。
8、模型效果科学评估
模型开发完毕后,通常需要对其效能进行系统检验,本质上是回答”该模型的预测能力究竟如何”这一核心问题。
评估预测模型的效能时,需要从辨识能力、校准精度及临床应用价值三个维度展开综合分析。
1、对于模型辨识度的衡量,常采用敏感率、接受者操作特征曲线(ROC)等指标,研究者强调需结合敏感度、特异度、曲线下面积(AUC)、F1指数以及马修斯相关系数(MCC)等多维度指标进行交叉验证,特别是在样本分布不均衡的数据集中,单一指标的片面使用可能引发评估结果的系统性偏倚。
2、校准性能的验证可采用校准图示法或整合校准指数(ICI)等工具。虽然Hosmer-Lemeshow拟合优度检验理论上可用于评估校准曲线的适配程度,但因其统计效力对样本量变化过于敏感,且结果解读缺乏直观性,故在实践应用中不推荐采用。针对样本量极端情况引发的评估难题,学界已研发出改良型H-L检验方法。
3、临床实用价值的量化分析推荐采用决策曲线分析法(DCA),该技术通过构建阈值概率与净收益的数学模型,为临床诊疗决策提供基于循证医学的量化参考。这种方法能够有效辅助医务人员在复杂临床情境中制定合理的干预方案。
9、评价模型的可重复性和可移植性
模型验证的目的是评估模型的可重复性(reproducibility)和可移植性(transportability),通常涉及内部验证和外部验证两个过程。
√内部验证用的是模型开发时的数据集,主要关注可重复性。
1、最简单的是随机分割法,也就是将数据集按照一定的比例(如7:3、8:2等)随机分为训练集和验证集两部分,但该法可能导致子集变小、增加过拟合风险及结果不稳定。
2、相比之下,重采样技术,如交叉验证和自助法(bootstrapping)更受欢迎,特别是自助法在小样本量下特别有效,建议作为首选。
除此之外,作者还特别强调,内部验证不等于外部验证。
√虽然内部验证方便,但它往往会产生过于乐观的结果,并倾向于夸大模型的表现。因此,在临床环境中应用预测模型之前,外部验证变得至关重要。
根据评估的目的不同,外部验证集可以分为两类:
1、地理验证(或称空间验证,geographical validation)被广泛认为是首选方法,它评估模型在不同机构或地区的可移植性;
2、时间验证(temporal validation)通常被视为一种在时间上进行的外部验证,它检查先前开发的模型在同一中心后续患者队列中的有效性,其性能介于内部验证和地理外部验证之间。”以上文字,请你帮我逐字逐句改写一遍。要求在意思相同的基础上改动较大,互不相同。请注意,要逐字逐句重写,不要省略概括。
10.更新预测模型
建模系统需与时代发展保持同步,当某适用性模型具备优秀的判别能力却存在预测偏差时,更优选择是实施迭代优化而非推倒重建。
常见升级策略包含三种回归改良路径:核心模型调优(涵盖参数校准、算法修正及功能扩展)、超模型框架升级以及持续自适应更新机制。
11.进行影响评估
影响评估的核心在于验证预测工具能否实际改变医疗决策过程。
√从研究设计考虑
在方法学层面,研究者常采用集群随机化试验,即将医疗机构或临床团队随机分为模型应用组和常规操作组;为提升组间可比性,可采用交叉递进设计(cross-over stepped approach)。
√从研究结局考虑
在资源有限情况下,前期可采用历史对照或观察性研究获取初步证据,待获得初步积极信号后再推进到多中心随机对照试验。
12.模型推广应用
学者强调医疗算法系统投入实际诊疗前需经历五个核心步骤:
1、首先,在原始数据集上完成模型性能的双重验证,即确保疾病识别能力与预测准确性的同步达标;
2、其次,必须运用异源医疗数据进行普适性测试,证实其在不同医疗场景中的稳定表现;
3、再者,需系统评估模型对临床实践的真实干预效果,观察能否实质性改变医师诊疗路径;
4、随后要开展结局导向的循证研究,验证技术应用与患者生存质量改善存在因果关联;
5、尤为重要的是,必须获得行业领军学者的学术背书,为技术转化提供专业公信力支撑。
当前尽管智能诊疗工具研发呈现井喷态势,但其真正融入临床工作流仍存在显著障碍。优质预测系统的核心价值不在于复杂的数学建模,而在于全链条风险管控机制的建立——从数据采集到结果解释的每个技术节点都需预设解决方案。
我们将持续推出医疗AI模型构建方法论系列解读,欢迎持续关注行业前沿动态!