发布信息

企业资讯 | 百图生科发布行业最佳联合用药预测模型,精准推荐全新药物组合和用药场景

作者:本站编辑      2023-02-12 01:30:17     35

新药发现的速度在不断提升,但耐药、治疗无效仍然是困扰大多数患者的艰难问题。发现新的联合用药组合,能为患者带来新的可能,也对进一步设计全新药物与现有药物联合作用提供了明确的方向。

作为突破创新药物研发平台,百图生科以发现多靶点组合、设计能实现复杂调控机制的精准药物为目标,已在药物组合研究上实现了一系列的突破。

近日,一项由百图生科联合香港中文大学、阿卜杜拉国王科技大学等学术机构共同完成的新研究发表在预印本网站arXiv。

该研究提出的新方法基于超大规模AI预训练技术,一方面,不仅能实现对联合用药效果的行业最佳预测准确率——新方法比此前行业中的最佳模型提升10%以上,相较经典机器学习方法提升30%以上;另一方面,还能对训练数据中未见过的新药物或细胞系给出理想的联合用药效果预测——与此前行业最佳的模型相比,新模型的AU ROC超过了近15%。

后台回复“Synergistic”获取论文预印本地址

多模态+图网络+预训练,

“三位一体”实现精准的药物组合推荐

在该研究中,团队从涵盖各种药物相关方面的数据集中收集大量数据,并创新性地基于这些多模态数据开展超大规模预训练,生成药物、蛋白质和疾病的信息表征和特征,更进一步的,基于细胞内的蛋白-基因之间的调控关系网络构建出深度图神经网络模型,兼具可解释性和模型预测能力。

文章表明,该模型在一系列药物协同作用预测的基准数据集上均实现了最佳的预测效果,在来自阿斯利康的药物组合数据集验证显示,这一新方法比目前行业中的最佳模型提升10%以上,相较经典机器学习方法提升30%以上。

更重要的是,对于训练数据中未见过的药物及其组合的预测,新的模型也表现优异。

研究团队开发了两个覆盖39个独立药物和10个独立细胞系的数据集,以测试这些方法在训练数据中没有见过的药物和细胞系上的表现。结果表明,新方法在这方面保持了很好的性能,各项指标均达到80%以上,而其他方法如DeepDDS的表现均在70%以下。与此前行业最佳的模型相比,新模型的AU ROC超过了近15%。

团队认为,本次提出的新方法和框架,既有助于在湿实验中发现新型药物,也将推动建立更为精确的组合药物指南。

与单一药物治疗相比,联合用药治疗具有诸多已被广泛证实的好处:不但可以提高疗效,减少副作用和宿主毒性,甚至可以克服耐药性。在单一药物难以奏效的情况下,联合用药治疗越来越多地用于包括HIV、病毒感染和癌症等复杂的疾病中。

当然,药物组合能够发挥治疗价值的一个大前提,是准确地找到了合适的药物组合。

传统寻找药物组合的方法,往往基于临床试验的不断试错,不仅耗时长、成本高,也无法排除对患者造成伤害的风险。此外,受限于既有资源和海量的药物组合搜索空间,也难以大规模地对所有药物组合进行临床验证实验。

近年来,随着实验技术的发展,高通量药物筛选(HTS)让探索大型药物组合空间成为现实,与药物组合协同作用相关的数据量也大幅增加。这类公共数据集的出现和完善,推动了特定组织的药物研究,并为计算方法的完善提供了高质量的训练数据,使评估预测药物组合的计算方法成为可能,尤其是基于深度学习的AI方法。

而现有模型及其所使用的数据集依然有较大局限性,包括预测目标通常停留在一个特定的细胞系或组织,或者通常是基于单一的数据库,距离普适性、无偏见、可大规模推广的药物协同作用预测模型仍有不少差距。

为了解决上述问题,在这项研究中,团队提出一个端到端的深度学习框架,通过利用多模态数据、图神经网络和大规模无监督训练,提取和整合了药物协同作用的重要特征,从而准确地预测协同效应。

图:该研究提出的药物组合预测框架

具体而言,模型将药物的化学结构图和细胞系的基因/蛋白质表达作为输入,应用预先训练好的药物分子图transformer和蛋白质预训练语言模型,将药物和蛋白转换成嵌入向量,并使用知识嵌入学习算法,从医学知识图谱中获得的融合疾病、药物、蛋白关联关系的基因表征嵌入向量。

接下来,通过将药物-药物相似性关系、药物-靶点基因/蛋白对应关系、以及蛋白和蛋白相互作用关系等构建成具有更丰富信息的图,利用图神经网络将生成的嵌入向量作为节点表示,对药物协同作用进行传播和推演,在图神经网络的基础上,团队建立了一个协同效应预测器,通过多层感知器(MLP)来预测协同效应。

实验效果最优,且实现对全新药物的预测

为了验证新模型对于药物组合的预测效果,研究团队做了一系列的测试。

验证的第一步,是在公开的DrugCom数据集上与最先进的方法进行比较,其中包括五种深度学习方法:DeepDDS、 TranSynergy、DeepSynergy、MR-GNN、 MatchMaker,以及两种经典机器学习方法:XGBoost、Adaboost。

如表2所示,新方法在所有重要指标上都取得了当前最好的结果。具体来说,在最重要的两大指标AU ROC和F1,新方法比第二优的DeepDDS方法提升2%以上,比经典机器学习方法更有超过20%的提升。

更进一步的,表3则总结了上述7种方法在行业公认的阿斯利康(AZ)数据集上迁移测试的表现。这一数据集基于专门评估药物协同预测的赛事“AstraZeneca-Sanger Drug Combination Prediction DREAM Challenge",由阿斯利康、桑格研究所、Sage Bionetworks-DREAM Challenge组委会共同推出。


相比于其他的方法,新方法在指标上大幅超越了其他的方法,体现了很强的推广能力。

为了进一步验证新方法的泛化能力,团队开发了两个覆盖39个独立的药物和10个独立的细胞系的数据集,以测试了这些方法在训练数据中没有见过的药物和细胞系上的表现。

如表4显示,新方法在这方面保持了很好的性能,各项指标均达到80%以上,而其他方法如DeepDDS和DeepSynergy出现了下降到70%以下的情况。

总体而言,该研究提出的新模型在实验中充分验证了其有效性和稳健性,并始终且显著优于其他模型。

研究团队认为,将这一模型扩展到更多任务上,会是一个很有前途的研究方向。在未来,将诸如三维分子结构这样的更多信息纳入框架之中,该方法的性能还可以进一步提升。此外,研究团队也将开发能够进行更多的药物、细胞系和疾病相关任务的方法,而不局限于药物联合效应预测。

我们相信,研究团队提出的新方法可以作为一个强大的工具,促进精确的药物联合治疗医学的发展,尤其是实现全新用药组合的推荐。

扫描下方二维码,加入百图科 AI 团队

关于百图生科

百图生科(BioMap)是中国首家生物计算引擎驱动的创新药物研发平台,由百度创始人李彦宏于2020年创立。

公司致力于结合前沿AI和生物技术,构建高通量干湿闭环的生物计算引擎,建模蛋白质/免疫细胞/免疫系统的复杂规律,从而开发全新的蛋白质药物—— “ImmuBot®免疫机器人”,重编程免疫系统、治疗数十种免疫相关疾病。

目前,公司已在北京、苏州、硅谷建立了三个研发中心和上万平米的高通量实验室,组建了由多位院士和产业专家领衔的数百人专业团队,所开发的数千亿关系的多组学免疫图谱、上千亿参数的多模态生物计算大模型、年产上亿组数据的智能化蛋白质与免疫系统实验模拟器等一系列重大科学装置处于世界领先水平。公司目前围绕多种肿瘤免疫和自身免疫疾病建立了30余个自主药物研发项目,并通过卓越开发者计划与国内外著名机构建立了数十个联合开发项目。

播禾创新中心

播禾创新(adock)由中国第一支专注于全周期孵化的生命健康投资基金-薄荷天使基金发起,通过引进和孵化以IT技术支持的生命健康创业项目,构建交叉融合的创新生态圈,辅以专业的载体平台及扎实的科学孵化服务,致力于成为中国首家信息科技(IT)及生物科技(BT)交叉融合的创新孵化中心。

— THE END —

相关内容 查看全部