
DocAide
临床转化项目推介:第002期
项目名称:
罕见病AI辅助诊断智能体
医院:
浙江大学医学院附属儿童医院
团队联系人:
临床数据中心 李昊旻
电话:0571-81732402
邮箱:hmli@zju.edu.cn
科研办 丁 雯
电话:0571-86670071
邮箱:chkjk@zju.edu.cn
01
项目背景
聚焦于解决全球7000多种罕见病“确诊难、周期长(平均延误4.7年)”的核心痛点,以及现有通用大模型在罕见病诊断容易产生幻觉、结果不可靠等现状,通过独创的“似然比分析+多组学融合+主动式大模型问诊”三级技术体系,构建了具备完全可溯源性且无“幻觉”风险的智能诊疗闭环,提供可追溯证据的对话式诊断。项目可应用于临床医生辅助诊断、基因检测前高危人群筛查、患者自我问诊排查、药企罕见病用药前患者筛选等多个场景。
02
项目简介
项目由浙江大学医学院附属儿童医院临床数据中心、浙江大学生物医学工程与仪器科学学院,联合布朗大学沃伦・阿尔珀特医学院罗德岛医院共同研发,打造出一款专门针对罕见病的智能对话工具 RDguru。这款工具依托智能语言框架和主流大语言模型搭建核心能力,整合了全球权威的罕见病知识库,能为临床人员提供可溯源的罕见病知识解答;同时创新融合了多种主流的罕见病诊断方法,打造了智能诊断模型,可自动提取患者病症特征、开展多轮针对性问诊,最终给出精准的鉴别诊断建议。经 238 例真实罕见病病例测试,这款工具在前 5 位诊断建议中命中真实病情的比例达 63.87%,比目前最优的诊断方法提升了 5.47 个百分点,且能在问诊中高效捕捉有诊断价值的病症信息,为罕见病的临床诊疗提供了实用的智能辅助方案。
03
知产情况
本项目已申请发明专利一项。
公开号:CN118969250A
发明名称:一种罕见病辅助诊断推荐方法及系统
发明人:李昊旻; 杨建; 段会龙; 舒强
04
创新亮点
1. 首创证据可溯源问答模式:整合全球权威罕见病知识库,告别大语言模型 “信息幻觉”,回答可精准追溯至原始知识源,临床参考更靠谱;
2. 多法融合智能诊断模型:创新结合 3 种主流罕见病诊断方法,通过智能算法实现优势互补,大幅提升诊断命中率,比现有最优方法诊断准确性高 5.47%;
3. 自动化病症特征提取:能自动从临床描述中识别关键病症特征,无需人工繁琐标注,快速为诊断提供核心依据,节省临床工作时间;
4. 仿临床多轮靶向问诊:模拟医生诊疗思路,针对疑似病症开展多轮针对性提问,精准捕捉有诊断价值的信息,不断优化诊断建议;
5. 轻量化易上手交互设计:以自然对话形式实现知识查询和诊断辅助,无需专业操作技巧,基层医生也能快速使用,降低罕见病诊断门槛。
05
关联论文
论文标题:
RDguru: A Conversational Intelligent Agent for Rare Diseases
发表期刊:
IEEE Xplore
发表日期:
2025-09
研究团队:
浙江大学医学院附属儿童医院临床数据中心、浙江大学生物医学工程与仪器科学学院,布朗大学沃伦・阿尔珀特医学院罗德岛医院联合研究;
论文地址:
https://ieeexplore.ieee.org/document/10684379/authors#full-text-header
Github:
https://github.com/1678492347/mix-diag-dqn
数据集地址:
https://github.com/1678492347/rdguru-test
下文为论文部分内容,详情请查阅论文。
RDguru:一款面向罕见病的对话式智能体

摘要
本研究针对大语言模型在罕见病领域易生成错误信息、现有诊断工具存在局限的临床痛点,研发出基于 LangChain 框架、以 GPT-3.5-turbo 为核心的罕见病对话式智能体 RDguru。该智能体整合权威知识源与专业工具,实现证据可溯源的知识问答和专业鉴别诊断服务,其核心创新的基于深度 Q 网络的多源融合诊断模型,融合三种诊断推荐策略提升了诊断召回率。经多维度评估,RDguru 在知识问答的准确性上优于 ChatGPT,针对 238 例罕见病病例的测试显示,其多源融合诊断的 Top5 真实诊断召回率达 63.87%,较现有最优方法提升 5.47 个百分点;同时其表型导向的多轮问诊策略,能有效挖掘诊断相关表型、优化真实诊断优先级。研究证实了 RDguru 的有效性与可靠性,为提升罕见病临床决策水平提供了实用的智能辅助方案。
一、研究背景
1.罕见病临床痛点:单病种发病率低(每 10000 人患病<6.5~10 人)、表型异质性强、症状重叠度高,患者常经历 “诊断奥德赛”,临床医生也因知识储备不足、权威信息获取困难导致诊断延迟。
2.大语言模型(LLMs)的医疗应用矛盾:ChatGPT 等 LLMs 为医疗决策支持提供新方向,但存在生成幻觉、专业知识可信度低的问题,在罕见病这类高专业度领域,可靠性远不及专用诊断工具,且现有罕见病诊断工具(如 RDmaster)存在输入形式受限、灵活性不足的缺陷。
3.研究切入点:针对罕见病诊断的临床痛点和现有 AI 工具的不足,开发一款兼具证据可溯源知识问答和可靠鉴别诊断的对话式智能体,解决 LLMs 在罕见病领域的应用短板。
二、研究设计
1、研究团队和合作单位
•核心团队:浙江大学医学院附属儿童医院临床数据中心、浙江大学生物医学工程与仪器科学学院,布朗大学沃伦・阿尔珀特医学院罗德岛医院联合研究;
•基金支持:国家自然科学基金(81871456),伦理审批:浙江大学医学院附属儿童医院机构审查委员会(2021-IRB165)。
2、核心研究思路
(1)基于大语言模型的智能体
以LangChain 框架为基础,搭载 GPT-3.5-turbo 作为推理引擎,构建罕见病专属对话式智能体 RDguru;主要实现两大功能:一是基于准确的罕见病知识提供交互式问答对话服务;二是接收患者病例后,通过多款专业工具开展鉴别诊断的医疗会诊服务。
(2)罕见病知识问答
通过检索增强生成(RAG)框架整合 Orphanet、OMIM、GARD 等权威知识源,解决 LLMs 的幻觉问题,实现证据可溯源的知识问答;本研究提出一种检索增强生成(RAG)框架(见图 1),以提升大语言模型的能力。

图1. 用于可溯源证据知识问答的检索增强生成框架,包含多个预定义工具,用于解析ORPHA疾病、检索Orphanet、OMIM、GARD等在线知识库,以及查询预加载的Orphadata数据。
(3)医疗会诊
RDguru 的另一核心功能是与用户开展医疗会诊,为疑似罕见病病例的诊断提供辅助。将大语言模型作为智能体,使 RDguru 能够通过自然对话完成医疗会诊。本研究将该过程划分为四个连续的子任务,应用于基于大语言模型的对话式智能体,并融入相应方法以提升智能体在医疗会诊中的性能(见图 2)。

图 2 工具增强的医疗会诊检索增强生成框架,包含连续的工作流程,分为表型注释与上下文分析、可解释的症状诊断、鉴别诊断和诊断分析四个环节,各环节均由专业工具提供增强支持。
(4)基于深度 Q 网络的多源融合诊断模型
融合深度 Q 网络(DQN) 开发多源融合诊断模型 MixDiagDQN,整合 PheLR(表型似然比分析法)、GPT-4、表型匹配三种诊断策略,提升罕见病鉴别诊断的召回率;
结合自动化表型注释、表型导向式多轮问答,打造 “知识问答 + 医疗会诊” 一体化的智能系统,兼顾专业性、可解释性和灵活性。
3、关键研究样本
(1)测试样本
238 例 PubMed 发表的确诊罕见病病例,满足有详细表型描述、至少 2 项表型特征、Orphadata 有完善表型记载三大标准,涉及 92 种罕见病,男女比例接近(男 113 例 / 女 119 例),每例平均记录 9.1 个 HPO(人类表型本体)术语;
从中选取 102 例文本形式描述的病例,用于验证自动化表型注释的可靠性。
(2)训练样本
因真实罕见病病例稀缺,基于 Orphadata 和 238 例真实病例的表型特征分布,模拟生成 10000 例罕见病病例,涉及 4257 种可表型诊断的罕见病,按 “精准型(50%)、模糊型(10%)、噪声型(40%)” 分配表型,保证与真实病例特征高度匹配。
4、研究终点设计
(1)主要终点
RDguru 在罕见病鉴别诊断中的性能:以真实确诊疾病的召回率为核心,评估 MixDiagDQN 模型在 Top1/Top5/Top10 诊断结果中的召回率,并与当前最优方法 PheLR 对比;
知识问答的准确性:通过 ROUGE 评分、NP-ARE(名词短语准确率 / 召回率)、GPT-4 自动评分、RAGAs 框架(上下文精准率 / 召回率、答案真实性 / 正确性),对比 RDguru 与 GPT-3.5/GPT-4 的性能。
(2)次要终点
自动化表型注释的效能:以人工标注为金标准,评估 NCBO&FastContext 流程在 HPO 术语提取中的精准率、召回率、F1 值;
表型导向式多轮问答的有效性:评估多轮对话中有价值信息获取率、真实诊断排名提升率;
工具调用与疾病解析的鲁棒性:统计 RDguru 在知识问答中工具调用成功率、Orphanet 疾病正确识别率。
5、模型介绍
(1)核心智能体:RDguru
两大核心功能模块,均基于 LangChain 的 “模型 + 工具” 智能体架构,GPT-3.5-turbo 为核心推理引擎,平衡性能与成本:
知识问答模块:基于 RAG 框架,整合文档加载、文本分块、OpenAI 嵌入、FAISS 向量检索,定制化工具适配表型、遗传病因、流行病学等 8 类问答需求,答案可溯源至权威知识源;
医疗会诊模块:四步连续工作流 ——①表型注释与上下文分析(NCBO Annotator+FastContext 提取 HPO 并标注上下文);②症状诊断(PheLR 提供可解释性);③鉴别诊断(RDmaster 的 AIGGI 指标选表型、多轮问答);④诊断结果分析(生成整合式分析报告)。
(2)核心创新模型:MixDiagDQN(多源融合诊断模型)
基于深度 Q 网络的强化学习模型,核心是融合 PheLR、GPT-4、表型匹配三种诊断策略的推荐结果,生成统一的鉴别诊断列表:
状态设计:87 维诊断状态,包含患者表型信息、诊断状态信息、融合诊断信息,归一化后输入模型;
策略与奖励:通过 ε- 贪心策略选择诊断方法,奖励机制以目标疾病与诊断栈顶的最小距离变化为核心,匹配真实疾病时奖励翻倍,最大化累积奖励以提升召回率;
模型训练:三层 MLP 神经网络(隐藏层 512 单元),采用经验回放、目标网络两大 DQN 技术,XGBoost 模型热启动减少训练轮次,批次大小 64、学习率 0.03、折扣率 0.9。
三、研究结果
本研究设计并开发了一款面向罕见病的对话式智能体 RDguru,并将其搭建为在线平台(网址:http://rdguru.nbscn.org/)。RDguru 以聊天机器人的形式,整合了知识检索与医疗会诊两大核心应用场景,为临床医生提供易访问的罕见病专家级智能体服务。

图 3 RDguru 的用户界面。(a)证据可溯源的知识问答界面,额外展示解析后的 Orphanet 疾病,以及从在线知识库或 Orphadata 中查询的信息;(b)工具增强的可解释医疗会诊界面,额外展示由 PheLR 支持的排名前五诊断结果的表型评估、由 RDmaster 支持的鉴别诊断解释,以及诊断不确定性等实时诊断状态。
1、知识问答:性能显著优于原生 GPT 模型
(1)整体表现:在症状、遗传、流行病学等 8 个问答维度,RDguru 的 ROUGE 精确率 / 召回率、NP-ARE 均显著高于 GPT-3.5/GPT-4,GPT-4 自动评分中,除鉴别诊断外,其余维度均大幅领先;
(2)RAGAs 评估:Orphadata 相关问答的上下文精准率 / 召回率达 100%,整体答案正确性 0.75±0.26,显著高于 GPT-3.5(0.49±0.23)和 GPT-4(0.48±0.24);
(3)鲁棒性:800 次问答中,工具调用失败率仅 6.13%,疾病正确识别率 98.67%,工具适配错误率仅 1.33%。

图 4 RDguru 与各类 GPT 模型在 8 个问答维度的知识回答质量评估结果,以权威知识描述为目标,通过 ROUGE 评分、自定义 NP-ARE 和 GPT-4 自动评估计算精确率、召回率和 F1 值,雷达图中分数范围为 0~1。(注:Ⅰ- 症状、Ⅱ- 流行病学、Ⅲ- 疾病管理与治疗、Ⅳ- 疾病自然史、Ⅴ- 鉴别诊断、Ⅵ- 遗传方式、Ⅶ- 诊断方法、Ⅷ- 致病基因)
2、医疗会诊:多维度性能表现优异
(1)自动化表型注释:NCBO&FastContext 流程在存在表型提取中表现最优(精准率 0.77、召回率 0.68、F1=0.73),缺失表型提取与 Doc2HPO 相当,显著优于 NCR 流程;
(2)鉴别诊断:MixDiagDQN 的 Top5 召回率达 63.87%,较当前最优方法 PheLR(58.40%)提升 5.47 个百分点,Top10 召回率 69.33%,均显著高于 GPT-4(45.80%)和表型匹配(52.52%);
(3)多轮问答:10 轮表型导向式问答中,有价值信息获取率 59.10%,21.56% 的对话中真实诊断排名提升,5.45% 的病例实现真实诊断升至 Top1,确认的表型中 74.48% 与真实疾病相关,否定表型也对鉴别诊断有辅助价值。

图 5 不同方法在表型提取与上下文分析中的精确率、召回率和 F1 值,误差线代表 95% 置信区间;左图为患者存在表型的解析结果,右图为患者缺失表型的解析结果。

图 6 基于 238 例罕见病病例的表型诊断评估中,MixDiagDQN 模型及其整合的单一方法(PheLR、GPT-4、表型匹配)在排名前 10 的诊断结果中,目标疾病的累积检出数。

图 7 MixDiagDQN 模型在 238 例已发表病例中的性能表现,背景颜色代表推荐诊断结果的方法来源,黑色实线标记测试病例的真实确诊疾病。

图 8 基于 238 例已发表病例的测试中,PheLR、GPT-4 和表型匹配三种方法排名前 10 的推荐疾病的重叠情况(桑基图),每种方法各位置的样本量均为 238,两个项目间的连线宽度代表对应的疾病重叠数。
3、模型策略:融合诊断实现 “优势互补”
MixDiagDQN 对三种诊断策略的选择具有明确倾向性:PheLR 主导 Top1 诊断推荐,表型匹配补充 Top2,GPT-4 因与前两者重叠度低,在 Top3 及以后发挥互补作用,这也是 Top5 召回率显著提升的核心原因。
四、临床意义与创新点
1、临床意义
(1)为罕见病诊疗提供高效实用的 AI 辅助工具:RDguru 以对话式界面实现 “知识检索 + 鉴别诊断” 一体化,无需专业的关键词查询技巧,临床医生可快速获取权威知识、开展辅助诊断,缩短罕见病诊断周期;
(2)提升罕见病诊断的可解释性与可靠性:解决了 LLMs “幻觉” 和传统诊断工具 “灵活性不足” 的双重问题,MixDiagDQN 的多源融合策略让诊断结果既有数据支撑,又能整合不同方法的优势;
(3)为基层 / 非罕见病专科医生提供知识与诊断双支撑:弥补了普通临床医生罕见病知识储备的不足,降低罕见病诊断的专业门槛。
2、核心创新点
(1)技术创新:打造罕见病专属的 RAG 增强对话式智能体,实现知识问答的证据可溯源,解决了 LLMs 在医疗专业领域的可信度问题;
(2)模型创新:首次提出基于 DQN 的多源融合诊断模型 MixDiagDQN,将基于知识库的算法(PheLR)、大语言模型(GPT-4)、表型匹配三种不同范式的诊断策略融合,实现 1+1+1>3 的诊断效果;
(3)流程创新:构建 “表型注释 - 症状诊断 - 多轮鉴别诊断 - 结果分析” 的全流程医疗会诊体系,结合表型导向式多轮问答,让 AI 辅助诊断更贴合临床医生的实际诊疗思路;
(4)产品创新:开发在线可访问平台(http://rdguru.nbscn.org/),模块化设计可适配 LLMs 的迭代升级,具备临床落地的可行性。
五、研究局限性与未来方向
1、研究局限性
(1)系统扩展性受限:基于 LangChain 框架开发,工具需预定义和代码编码,新增需求需人工开发,时间与成本较高;
(2)诊断维度单一:目前仅基于表型特征开展诊断,未整合基因测序、影像学等关键临床数据,而多数罕见病为遗传性疾病,基因数据对诊断至关重要;
(3)临床验证不足:研究仅基于已发表病例开展模拟测试,尚未在真实临床场景中进行大样本、多中心的临床验证,实际诊疗中的性能有待验证;
(4)应用范围受限:专为罕见病设计,无法处理普通疾病,在常规临床实践中的适用性较低。
2、未来研究方向
(1)拓展系统功能:开发可适配未知场景的灵活工具模块,降低新需求的开发成本,同时整合基因测序、实验室检查、影像学等多维度临床数据,提升诊断效能;
(2)开展临床转化:在多中心罕见病诊疗中心开展真实世界研究,验证 RDguru 在实际临床中的性能、易用性和临床价值,形成临床应用规范;
(3)扩展应用范围:在罕见病基础上,逐步整合普通疾病的知识与诊断模型,提升系统在常规临床实践中的适用性;
(4)优化模型性能:结合更先进的大语言模型(如 GPT-4o、开源大模型)提升推理与工具调用能力,优化 MixDiagDQN 的奖励机制和网络结构,进一步提升诊断召回率与精准率。
六、给临床科研工作者的启发
1.多技术融合,实现优势互补:大语言模型并非 “万能”,传统专业算法(如 PheLR)也有其不可替代的优势,临床 AI 科研应摒弃 “单一技术至上” 的思路,通过强化学习、融合模型等方式,实现不同技术范式的协同增效;
2.重视可解释性与证据溯源,贴合临床科研规范:医疗 AI 的临床转化,核心是让临床医生敢用、会用,科研中需兼顾模型性能与可解释性、证据溯源性,避免 “黑箱模型”,这与临床科研的 “循证” 理念高度契合;
3.稀缺样本的创新利用:罕见病等领域存在样本稀缺的问题,可通过模拟样本生成、多中心数据整合、跨领域数据复用等方式解决,同时保证模拟样本与真实样本的特征一致性,提升研究的可靠性;


