
百川智能最新医学大模型论文-利用先进的患者模拟器探索医疗”问诊-诊疗”关系

引言
百川智能,作为医疗大模型领域的唯一独角兽,始终坚定不移地将医疗作为发展的核心方向。
当前,百川智能正全力加速医疗场景大模型的应用布局,积极开拓医疗大模型的应用边界。
就在 2025 年 1 月,百川智能发布了最新的医学大模型论文,为医疗大模型领域带来了全新的思考与探索。

文章题目
英文:
Exploring the Inquiry-Diagnosis Relationship with Advanced Patient Simulators
中文:
利用先进的患者模拟器探索医疗”问诊-诊疗”关系
发表时间
2025年1月

摘要
该文献探讨了医学对话系统的发展和应用,特别关注一种名为Chimed gpt的新的中国医学大语言模型,旨在增强与人类偏好的一致性。它讨论了医学中大型语言模型(LLM)的分类,医患互动中探究策略的重要性,以及创建患者模拟器以提高医疗咨询的真实性。该研究强调了查询质量和诊断准确性之间的关系,揭示了各种人工智能模型之间的显著差异,并提出了优化查询策略的方法,以获得更好的医学诊断结果。
核心速览
研究背景:
在线医疗咨询(OMC)因其便利性在医疗资源不足的地区得到广泛应用,但其局限性在于医生无法进行直接的体格检查,仅能依赖患者的描述进行诊断。这种信息不对称增加了诊断的复杂性。尽管大型语言模型(LLMs)在提高诊断准确性方面取得了显著进展,但大多数研究主要集中在信息充足条件下的诊断,而忽略了“问诊”阶段的重要性
该问题的研究面临诸多难点,主要体现在以下几个方面:其一,如何精准地模拟真实患者的行为与情绪,这对构建贴近现实的研究模型至关重要;其二,在有限的咨询轮次中,怎样合理且有效地分配询问机会,以获取关键信息;其三,不同医生模型在询问和诊断能力方面存在显著差异,如何权衡和利用这些差异也是一大挑战。
在相关工作方面,目前现有研究大多聚焦于运用提示工程构建患者代理。然而,通过这种方式得到的模拟结果与实际患者行为之间存在较大偏差。此外,虽然部分研究提供了动态模拟环境,但针对 “询问” 与 “诊断” 之间的关系,以及这种关系对整体咨询结果产生的影响,深入的探讨仍然较为匮乏。
研究方法:
研究团队从真实的医患对话中提取患者互动策略,并利用这些策略训练患者模拟器。通过输入医疗记录,模拟器能够生成接近真实患者行为的对话,包括情绪表达和主动提问。数据合成方面,研究采用上下文学习技术生成医患对话数据,解决了训练数据不足的问题。
1.数据收集与预处理
从 MedDialog 数据集筛选完整初始咨询对话,利用大语言模型(LLM)标注并标准化。手动选取常用对话策略标签,用 GPT-4o 扩展,构建候选对话策略标签集。
2.数据合成
因训练数据有限,采用上下文学习合成医生 – 患者对话数据。随机选择医学记录和对话策略流,通过上下文学习生成对应对话,扩充训练数据。
3.模型训练
使用 Qwen2.5 – 72B – Instruct 模型对患者模拟器进行有监督微调(SFT)。训练时仅输入患者医学记录到简单系统提示,让模型在无对话策略标签情况下,学习预测对话策略与内容。
4.评估指标
定义三个评估指标衡量模型性能:
幻觉率(HR):患者回答与医学记录矛盾的对话轮次占比,评估回答准确性与可靠性。
无关响应率(IRR):患者未回应医生问题的对话轮次占比,衡量对问题有效回应程度。
拟人化评分(AS):分析患者代理对话中的类人行为,如情感表达、主动提问、口语化程度,反映输出自然度和人性化水平。


实验设计
实验设置了在线医疗咨询场景,医生模型与患者模拟器进行多轮交互,生成问诊记录。随后,使用不同的诊断模型对这些记录进行诊断,评估诊断准确性。研究将问诊过程分为四类:主诉询问、已知症状的具体化、伴随症状的询问以及家族或病史的收集,并分析了不同模型在这些问诊类型中的表现差异。
1.数据收集
以 MedDialog 数据集为原始数据,筛选完整的初始咨询对话。
2.实验场景
设置 OMC 场景,医生与患者通过不同模型进行固定轮数交互,生成询问记录。诊断模型采用 AgentClinic 的 MedQA-Extend 提供的医学记录。
3.实验步骤
让不同医生模型与患者模拟器交互,生成询问记录。
运用不同诊断模型对询问记录进行诊断,并计算诊断准确性。
4.参数配置
询问轮数范围设定为 1 至 5 轮,诊断在第(n + 1)轮开展。
选用 GPT-4o、GPT-4o-mini、Claude-3-5-sonnet、o1-mini 和 o1-preview 等多种医生模型进行询问和诊断。
结果解读
患者模拟器在拟人化评分(AS)和幻觉率(HR)方面表现优异,能够更真实地模拟患者的情绪和行为。尽管无关响应率(IRR)略高,但这反映了真实患者的行为特征,表明模拟器的设计更贴近实际。
1.幻觉率(HR):患者模拟器的幻觉率显著低于所有基线模型,可能是训练时纳入患者医学记录所致。
2.无关响应率(IRR):我们的方法在无关响应率略高于基线模型,但明显低于 AgentClinic 的 GPT-4 模型。
3.拟人化评分(AS):我们的模型拟人化评分显著高于所有基线模型,说明能有效模拟真实患者对话策略。分析患者代理在对话中的拟人行为,包括情绪表达、主动提问和回应口语化程度,由 GPT-4o 按 0 到 1 打分,越接近 1 拟人化水平越高。
4.诊断准确性:实验显示,询问质量和诊断能力符合勒宾定律,即询问质量差会降低诊断有效性,反之亦然。不同医生模型在询问和诊断能力上差异明显,部分模型在特定类型询问中表现出色,在其他类型则欠佳。


结论
这篇论文提取真实医患对话策略,开发出高逼真度患者模拟器,借此探讨在线医疗咨询中询问与诊断的关系及其对诊断准确性的影响。实验表明,询问质量和诊断能力符合勒宾定律,不同医生模型在询问、诊断能力上差异显著。未来研究将聚焦于如何在有限询问机会里合理分配询问,以提升在线医疗咨询的诊断准确性。
引言
优点:
1.真实对话策略提取
从真实医患对话中提取对话策略,应用于患者模拟器的训练,促使其行为更趋近真实场景。
2.合成数据生成
运用上下文学习技术合成医患对话数据,有效解决训练数据有限的难题。
3.多模型对比分析
对不同模型的询问过程与诊断能力展开详细剖析,明确各模型在询问策略上存在显著差异。
4.Liebig 定律验证
通过实验验证,询问质量与诊断能力遵循 Liebig 定律,即一方的不足会限制另一方的有效性,二者相互影响。
5.询问类型分类与策略研究
将询问过程划分为主诉询问、已知症状具体化、伴随症状询问以及家族或病史收集四类。通过对比不同模型在各类询问中的分布情况和诊断准确性,揭示各模型询问策略的具体差别。
6.开源患者模拟器
计划公开患者模拟器的权重及相关代码,为其他研究者提供便利,促进相关领域的深入研究。
缺点:
1.数据局限
虽利用上下文学习技术合成数据,但训练数据量依旧有限,且缺少配套医疗记录。
2.模型选择偏差
实验中,o1-mini 和 o1-preview 等模型推理能力强,适合诊断任务,询问任务表现欠佳。这意味着开发医疗 AI 模型时,若单一模型无法兼顾询问和诊断的理想效果,可考虑分配给两个专用模型。
3.未来研究方向
后续将探索在 3 – 5 轮有限询问机会内,如何有效分配询问,提升诊断准确性与效率。
相关提问
1.论文中患者模拟器如何利用真实医患对话策略训练?
数据收集与预处理
从开源的真实医患对话数据集提取数据,借助 GPT – 4o 等大语言模型(LLMs)进行标注和标准化处理。归纳出患者对话策略后,手动筛选符合特定标准(如对话轮数完整、排除后续访问)的部分。
数据合成
鉴于训练数据有限且缺少医疗记录,运用上下文学习技术合成医患对话数据。输入疾病医疗记录和随机选择的对话策略流,每轮对话前虽有策略标签,但模型需在无标签情况下预测恰当对话策略及内容。
模型训练
利用合成的医患对话数据和医疗记录,基于监督微调(SFT)数据集训练患者模拟器,仅需输入患者医疗记录和简单系统提示。
2.论文中的评估指标及其含义?
幻觉率(Hallucination Rate,HR)
指患者回答与医疗记录矛盾的对话轮次占比。将医疗记录和对话内容输入 GPT – 4o,它会给出 0 或 1 的分数,该比例越低,模型表现越好。
无关响应率(Irrelevant Response Rate,IRR)
即患者未回答医生问题的对话轮次占比。把医生询问和患者回答输入 GPT – 4o 得 0 或 1 的分数,尽管真实患者存在无关回答情况,但该指标仍应越低越好。
拟人化评分(Anthropomorphism Score,AS)
用于衡量患者代理在对话中的类人行为,如情感表达、主动提问、回应口语化程度。由 GPT – 4o 在 0 – 1 区间打分,分数越接近 1,拟人化程度越高。
3.实验表明不同模型的询问与诊断能力存在显著差异,具体体现在哪?
询问能力
部分模型在特定询问类型表现突出,如 Claude-3-5-sonnet 在已知症状具体化上表现出色,在其他类型询问中表现欠佳。
诊断能力
不同模型诊断准确性差异明显,o1-preview 模型在测试中诊断能力最强,GPT-4o-mini 相对较弱。
询问轮数
实验显示,诊断准确性随询问轮数增加显著提升,更多轮次询问可提供更全面信息,助力提升诊断准确性。
勒宾定律
实验证实,询问质量与诊断能力遵循勒宾定律,询问质量差,诊断结果也难理想,反之亦然。
参考文献

