展会信息

临床转化 | 项目推介会(002):罕见病AI辅助诊断智能体

 作者：本站编辑  2026-03-28 22:45:14  6

DocAide

临床转化项目推介：第002期

项目名称：

罕见病AI辅助诊断智能体

医院：

浙江大学医学院附属儿童医院

团队联系人：

临床数据中心李昊旻

电话：0571-81732402

邮箱：hmli@zju.edu.cn

科研办丁雯

电话：0571-86670071

邮箱：chkjk@zju.edu.cn

项目背景

聚焦于解决全球7000多种罕见病“确诊难、周期长（平均延误4.7年）”的核心痛点，以及现有通用大模型在罕见病诊断容易产生幻觉、结果不可靠等现状，通过独创的“似然比分析+多组学融合+主动式大模型问诊”三级技术体系，构建了具备完全可溯源性且无“幻觉”风险的智能诊疗闭环，提供可追溯证据的对话式诊断。项目可应用于临床医生辅助诊断、基因检测前高危人群筛查、患者自我问诊排查、药企罕见病用药前患者筛选等多个场景。

项目简介

项目由浙江大学医学院附属儿童医院临床数据中心、浙江大学生物医学工程与仪器科学学院，联合布朗大学沃伦・阿尔珀特医学院罗德岛医院共同研发，打造出一款专门针对罕见病的智能对话工具 RDguru。这款工具依托智能语言框架和主流大语言模型搭建核心能力，整合了全球权威的罕见病知识库，能为临床人员提供可溯源的罕见病知识解答；同时创新融合了多种主流的罕见病诊断方法，打造了智能诊断模型，可自动提取患者病症特征、开展多轮针对性问诊，最终给出精准的鉴别诊断建议。经 238 例真实罕见病病例测试，这款工具在前 5 位诊断建议中命中真实病情的比例达 63.87%，比目前最优的诊断方法提升了 5.47 个百分点，且能在问诊中高效捕捉有诊断价值的病症信息，为罕见病的临床诊疗提供了实用的智能辅助方案。

知产情况

本项目已申请发明专利一项。

公开号：CN118969250A

发明名称：一种罕见病辅助诊断推荐方法及系统

发明人：李昊旻; 杨建; 段会龙; 舒强

创新亮点

1. 首创证据可溯源问答模式：整合全球权威罕见病知识库，告别大语言模型 “信息幻觉”，回答可精准追溯至原始知识源，临床参考更靠谱；

2. 多法融合智能诊断模型：创新结合 3 种主流罕见病诊断方法，通过智能算法实现优势互补，大幅提升诊断命中率，比现有最优方法诊断准确性高 5.47%；

3. 自动化病症特征提取：能自动从临床描述中识别关键病症特征，无需人工繁琐标注，快速为诊断提供核心依据，节省临床工作时间；

4. 仿临床多轮靶向问诊：模拟医生诊疗思路，针对疑似病症开展多轮针对性提问，精准捕捉有诊断价值的信息，不断优化诊断建议；

5. 轻量化易上手交互设计：以自然对话形式实现知识查询和诊断辅助，无需专业操作技巧，基层医生也能快速使用，降低罕见病诊断门槛。

关联论文

论文标题：

RDguru: A Conversational Intelligent Agent for Rare Diseases

发表期刊：

IEEE Xplore

发表日期：

2025-09

研究团队：

浙江大学医学院附属儿童医院临床数据中心、浙江大学生物医学工程与仪器科学学院，布朗大学沃伦・阿尔珀特医学院罗德岛医院联合研究；

论文地址:

https://ieeexplore.ieee.org/document/10684379/authors#full-text-header

Github:

https://github.com/1678492347/mix-diag-dqn

数据集地址:

https://github.com/1678492347/rdguru-test

下文为论文部分内容，详情请查阅论文。

RDguru：一款面向罕见病的对话式智能体

摘要

本研究针对大语言模型在罕见病领域易生成错误信息、现有诊断工具存在局限的临床痛点，研发出基于 LangChain 框架、以 GPT-3.5-turbo 为核心的罕见病对话式智能体 RDguru。该智能体整合权威知识源与专业工具，实现证据可溯源的知识问答和专业鉴别诊断服务，其核心创新的基于深度 Q 网络的多源融合诊断模型，融合三种诊断推荐策略提升了诊断召回率。经多维度评估，RDguru 在知识问答的准确性上优于 ChatGPT，针对 238 例罕见病病例的测试显示，其多源融合诊断的 Top5 真实诊断召回率达 63.87%，较现有最优方法提升 5.47 个百分点；同时其表型导向的多轮问诊策略，能有效挖掘诊断相关表型、优化真实诊断优先级。研究证实了 RDguru 的有效性与可靠性，为提升罕见病临床决策水平提供了实用的智能辅助方案。

一、研究背景

1.罕见病临床痛点：单病种发病率低（每 10000 人患病＜6.5~10 人）、表型异质性强、症状重叠度高，患者常经历 “诊断奥德赛”，临床医生也因知识储备不足、权威信息获取困难导致诊断延迟。

2.大语言模型（LLMs）的医疗应用矛盾：ChatGPT 等 LLMs 为医疗决策支持提供新方向，但存在生成幻觉、专业知识可信度低的问题，在罕见病这类高专业度领域，可靠性远不及专用诊断工具，且现有罕见病诊断工具（如 RDmaster）存在输入形式受限、灵活性不足的缺陷。

3.研究切入点：针对罕见病诊断的临床痛点和现有 AI 工具的不足，开发一款兼具证据可溯源知识问答和可靠鉴别诊断的对话式智能体，解决 LLMs 在罕见病领域的应用短板。

二、研究设计

1、研究团队和合作单位

•核心团队：浙江大学医学院附属儿童医院临床数据中心、浙江大学生物医学工程与仪器科学学院，布朗大学沃伦・阿尔珀特医学院罗德岛医院联合研究；

•基金支持：国家自然科学基金（81871456），伦理审批：浙江大学医学院附属儿童医院机构审查委员会（2021-IRB165）。

2、核心研究思路

（1）基于大语言模型的智能体

以LangChain 框架为基础，搭载 GPT-3.5-turbo 作为推理引擎，构建罕见病专属对话式智能体 RDguru；主要实现两大功能：一是基于准确的罕见病知识提供交互式问答对话服务；二是接收患者病例后，通过多款专业工具开展鉴别诊断的医疗会诊服务。

（2）罕见病知识问答

通过检索增强生成（RAG）框架整合 Orphanet、OMIM、GARD 等权威知识源，解决 LLMs 的幻觉问题，实现证据可溯源的知识问答；本研究提出一种检索增强生成（RAG）框架（见图 1），以提升大语言模型的能力。

图1. 用于可溯源证据知识问答的检索增强生成框架，包含多个预定义工具，用于解析ORPHA疾病、检索Orphanet、OMIM、GARD等在线知识库，以及查询预加载的Orphadata数据。

（3）医疗会诊

RDguru 的另一核心功能是与用户开展医疗会诊，为疑似罕见病病例的诊断提供辅助。将大语言模型作为智能体，使 RDguru 能够通过自然对话完成医疗会诊。本研究将该过程划分为四个连续的子任务，应用于基于大语言模型的对话式智能体，并融入相应方法以提升智能体在医疗会诊中的性能（见图 2）。

图 2 工具增强的医疗会诊检索增强生成框架，包含连续的工作流程，分为表型注释与上下文分析、可解释的症状诊断、鉴别诊断和诊断分析四个环节，各环节均由专业工具提供增强支持。

（4）基于深度 Q 网络的多源融合诊断模型

融合深度 Q 网络（DQN）开发多源融合诊断模型 MixDiagDQN，整合 PheLR（表型似然比分析法）、GPT-4、表型匹配三种诊断策略，提升罕见病鉴别诊断的召回率；

结合自动化表型注释、表型导向式多轮问答，打造 “知识问答 + 医疗会诊” 一体化的智能系统，兼顾专业性、可解释性和灵活性。

3、关键研究样本

（1）测试样本

238 例 PubMed 发表的确诊罕见病病例，满足有详细表型描述、至少 2 项表型特征、Orphadata 有完善表型记载三大标准，涉及 92 种罕见病，男女比例接近（男 113 例 / 女 119 例），每例平均记录 9.1 个 HPO（人类表型本体）术语；

从中选取 102 例文本形式描述的病例，用于验证自动化表型注释的可靠性。

（2）训练样本

因真实罕见病病例稀缺，基于 Orphadata 和 238 例真实病例的表型特征分布，模拟生成 10000 例罕见病病例，涉及 4257 种可表型诊断的罕见病，按 “精准型（50%）、模糊型（10%）、噪声型（40%）” 分配表型，保证与真实病例特征高度匹配。

4、研究终点设计

（1）主要终点

RDguru 在罕见病鉴别诊断中的性能：以真实确诊疾病的召回率为核心，评估 MixDiagDQN 模型在 Top1/Top5/Top10 诊断结果中的召回率，并与当前最优方法 PheLR 对比；
知识问答的准确性：通过 ROUGE 评分、NP-ARE（名词短语准确率 / 召回率）、GPT-4 自动评分、RAGAs 框架（上下文精准率 / 召回率、答案真实性 / 正确性），对比 RDguru 与 GPT-3.5/GPT-4 的性能。

（2）次要终点

自动化表型注释的效能：以人工标注为金标准，评估 NCBO&FastContext 流程在 HPO 术语提取中的精准率、召回率、F1 值；
表型导向式多轮问答的有效性：评估多轮对话中有价值信息获取率、真实诊断排名提升率；
工具调用与疾病解析的鲁棒性：统计 RDguru 在知识问答中工具调用成功率、Orphanet 疾病正确识别率。

5、模型介绍

（1）核心智能体：RDguru

两大核心功能模块，均基于 LangChain 的 “模型 + 工具” 智能体架构，GPT-3.5-turbo 为核心推理引擎，平衡性能与成本：

知识问答模块：基于 RAG 框架，整合文档加载、文本分块、OpenAI 嵌入、FAISS 向量检索，定制化工具适配表型、遗传病因、流行病学等 8 类问答需求，答案可溯源至权威知识源；

医疗会诊模块：四步连续工作流 ——①表型注释与上下文分析（NCBO Annotator+FastContext 提取 HPO 并标注上下文）；②症状诊断（PheLR 提供可解释性）；③鉴别诊断（RDmaster 的 AIGGI 指标选表型、多轮问答）；④诊断结果分析（生成整合式分析报告）。

（2）核心创新模型：MixDiagDQN（多源融合诊断模型）

基于深度 Q 网络的强化学习模型，核心是融合 PheLR、GPT-4、表型匹配三种诊断策略的推荐结果，生成统一的鉴别诊断列表：

状态设计：87 维诊断状态，包含患者表型信息、诊断状态信息、融合诊断信息，归一化后输入模型；
策略与奖励：通过 ε- 贪心策略选择诊断方法，奖励机制以目标疾病与诊断栈顶的最小距离变化为核心，匹配真实疾病时奖励翻倍，最大化累积奖励以提升召回率；
模型训练：三层 MLP 神经网络（隐藏层 512 单元），采用经验回放、目标网络两大 DQN 技术，XGBoost 模型热启动减少训练轮次，批次大小 64、学习率 0.03、折扣率 0.9。

三、研究结果

本研究设计并开发了一款面向罕见病的对话式智能体 RDguru，并将其搭建为在线平台（网址：http://rdguru.nbscn.org/）。RDguru 以聊天机器人的形式，整合了知识检索与医疗会诊两大核心应用场景，为临床医生提供易访问的罕见病专家级智能体服务。

图 3 RDguru 的用户界面。（a）证据可溯源的知识问答界面，额外展示解析后的 Orphanet 疾病，以及从在线知识库或 Orphadata 中查询的信息；（b）工具增强的可解释医疗会诊界面，额外展示由 PheLR 支持的排名前五诊断结果的表型评估、由 RDmaster 支持的鉴别诊断解释，以及诊断不确定性等实时诊断状态。

1、知识问答：性能显著优于原生 GPT 模型

（1）整体表现：在症状、遗传、流行病学等 8 个问答维度，RDguru 的 ROUGE 精确率 / 召回率、NP-ARE 均显著高于 GPT-3.5/GPT-4，GPT-4 自动评分中，除鉴别诊断外，其余维度均大幅领先；

（2）RAGAs 评估：Orphadata 相关问答的上下文精准率 / 召回率达 100%，整体答案正确性 0.75±0.26，显著高于 GPT-3.5（0.49±0.23）和 GPT-4（0.48±0.24）；

（3）鲁棒性：800 次问答中，工具调用失败率仅 6.13%，疾病正确识别率 98.67%，工具适配错误率仅 1.33%。

图 4 RDguru 与各类 GPT 模型在 8 个问答维度的知识回答质量评估结果，以权威知识描述为目标，通过 ROUGE 评分、自定义 NP-ARE 和 GPT-4 自动评估计算精确率、召回率和 F1 值，雷达图中分数范围为 0~1。（注：Ⅰ- 症状、Ⅱ- 流行病学、Ⅲ- 疾病管理与治疗、Ⅳ- 疾病自然史、Ⅴ- 鉴别诊断、Ⅵ- 遗传方式、Ⅶ- 诊断方法、Ⅷ- 致病基因）

2、医疗会诊：多维度性能表现优异

（1）自动化表型注释：NCBO&FastContext 流程在存在表型提取中表现最优（精准率 0.77、召回率 0.68、F1=0.73），缺失表型提取与 Doc2HPO 相当，显著优于 NCR 流程；

（2）鉴别诊断：MixDiagDQN 的 Top5 召回率达 63.87%，较当前最优方法 PheLR（58.40%）提升 5.47 个百分点，Top10 召回率 69.33%，均显著高于 GPT-4（45.80%）和表型匹配（52.52%）；

（3）多轮问答：10 轮表型导向式问答中，有价值信息获取率 59.10%，21.56% 的对话中真实诊断排名提升，5.45% 的病例实现真实诊断升至 Top1，确认的表型中 74.48% 与真实疾病相关，否定表型也对鉴别诊断有辅助价值。

图 5 不同方法在表型提取与上下文分析中的精确率、召回率和 F1 值，误差线代表 95% 置信区间；左图为患者存在表型的解析结果，右图为患者缺失表型的解析结果。

图 6 基于 238 例罕见病病例的表型诊断评估中，MixDiagDQN 模型及其整合的单一方法（PheLR、GPT-4、表型匹配）在排名前 10 的诊断结果中，目标疾病的累积检出数。

图 7 MixDiagDQN 模型在 238 例已发表病例中的性能表现，背景颜色代表推荐诊断结果的方法来源，黑色实线标记测试病例的真实确诊疾病。

图 8 基于 238 例已发表病例的测试中，PheLR、GPT-4 和表型匹配三种方法排名前 10 的推荐疾病的重叠情况（桑基图），每种方法各位置的样本量均为 238，两个项目间的连线宽度代表对应的疾病重叠数。

3、模型策略：融合诊断实现 “优势互补”

MixDiagDQN 对三种诊断策略的选择具有明确倾向性：PheLR 主导 Top1 诊断推荐，表型匹配补充 Top2，GPT-4 因与前两者重叠度低，在 Top3 及以后发挥互补作用，这也是 Top5 召回率显著提升的核心原因。

四、临床意义与创新点

1、临床意义

（1）为罕见病诊疗提供高效实用的 AI 辅助工具：RDguru 以对话式界面实现 “知识检索 + 鉴别诊断” 一体化，无需专业的关键词查询技巧，临床医生可快速获取权威知识、开展辅助诊断，缩短罕见病诊断周期；

（2）提升罕见病诊断的可解释性与可靠性：解决了 LLMs “幻觉” 和传统诊断工具 “灵活性不足” 的双重问题，MixDiagDQN 的多源融合策略让诊断结果既有数据支撑，又能整合不同方法的优势；

（3）为基层 / 非罕见病专科医生提供知识与诊断双支撑：弥补了普通临床医生罕见病知识储备的不足，降低罕见病诊断的专业门槛。

2、核心创新点

（1）技术创新：打造罕见病专属的 RAG 增强对话式智能体，实现知识问答的证据可溯源，解决了 LLMs 在医疗专业领域的可信度问题；

（2）模型创新：首次提出基于 DQN 的多源融合诊断模型 MixDiagDQN，将基于知识库的算法（PheLR）、大语言模型（GPT-4）、表型匹配三种不同范式的诊断策略融合，实现 1+1+1＞3 的诊断效果；

（3）流程创新：构建 “表型注释 - 症状诊断 - 多轮鉴别诊断 - 结果分析” 的全流程医疗会诊体系，结合表型导向式多轮问答，让 AI 辅助诊断更贴合临床医生的实际诊疗思路；

（4）产品创新：开发在线可访问平台（http://rdguru.nbscn.org/），模块化设计可适配 LLMs 的迭代升级，具备临床落地的可行性。

五、研究局限性与未来方向

1、研究局限性

（1）系统扩展性受限：基于 LangChain 框架开发，工具需预定义和代码编码，新增需求需人工开发，时间与成本较高；

（2）诊断维度单一：目前仅基于表型特征开展诊断，未整合基因测序、影像学等关键临床数据，而多数罕见病为遗传性疾病，基因数据对诊断至关重要；

（3）临床验证不足：研究仅基于已发表病例开展模拟测试，尚未在真实临床场景中进行大样本、多中心的临床验证，实际诊疗中的性能有待验证；

（4）应用范围受限：专为罕见病设计，无法处理普通疾病，在常规临床实践中的适用性较低。

2、未来研究方向

（1）拓展系统功能：开发可适配未知场景的灵活工具模块，降低新需求的开发成本，同时整合基因测序、实验室检查、影像学等多维度临床数据，提升诊断效能；

（2）开展临床转化：在多中心罕见病诊疗中心开展真实世界研究，验证 RDguru 在实际临床中的性能、易用性和临床价值，形成临床应用规范；

（3）扩展应用范围：在罕见病基础上，逐步整合普通疾病的知识与诊断模型，提升系统在常规临床实践中的适用性；

（4）优化模型性能：结合更先进的大语言模型（如 GPT-4o、开源大模型）提升推理与工具调用能力，优化 MixDiagDQN 的奖励机制和网络结构，进一步提升诊断召回率与精准率。

六、给临床科研工作者的启发

1.多技术融合，实现优势互补：大语言模型并非 “万能”，传统专业算法（如 PheLR）也有其不可替代的优势，临床 AI 科研应摒弃 “单一技术至上” 的思路，通过强化学习、融合模型等方式，实现不同技术范式的协同增效；

2.重视可解释性与证据溯源，贴合临床科研规范：医疗 AI 的临床转化，核心是让临床医生敢用、会用，科研中需兼顾模型性能与可解释性、证据溯源性，避免 “黑箱模型”，这与临床科研的 “循证” 理念高度契合；

3.稀缺样本的创新利用：罕见病等领域存在样本稀缺的问题，可通过模拟样本生成、多中心数据整合、跨领域数据复用等方式解决，同时保证模拟样本与真实样本的特征一致性，提升研究的可靠性；

下一篇： 2026唐家河紫荆花季文旅宣传推介会圆满举行
上一篇： 2026建行善新贷重磅升级!科创企业纯信用最高1000万,融资难题一站解~~!

展会信息

临床转化 | 项目推介会(002):罕见病AI辅助诊断智能体

相关内容查看全部 

相约2026亚欧博览

“陆海之阅”首登

京东・亚欧博览会

2026云南低空经济

走进航运博览会,

低空展讯丨2026国

2026义乌电商博览

7.8-10 上海国际

7月8-10日,上海镁

博览会倒计时!博

临床转化 | 项目推介会(002):罕见病AI辅助诊断智能体

相关内容 查看全部 

相关内容查看全部 