发布网友 发布时间:2024-10-22 05:06
共1个回答
热心网友 时间:2024-10-25 22:32
在中南大学湘雅药学院曹东升教授团队和浸会大学吕爱平教授团队的合作下,提出了一种新颖的专利关键化合物预测框架PatentNetML(图1)。该框架融合了网络科学和机器学习技术,通过整合基于化学结构相似性网络计算的网络指标、ADMET属性和其他分子描述符,构建分类模型预测专利中的关键化合物。研究结果已在线发表于Journal of Medicinal Chemistry,论文标题为“PatentNetML: A Novel Framework for Predicting Key Compounds in Patents using Network Science and Machine Learning”。图1展示了PatentNetML的整体结构。
专利在药物研发中扮演着至关重要的角色,专利信息往往领先数年,为研究人员提供了提前验证实验方案和寻找潜在先导药物的便利。药物研发中的化学分子专利尤其关键,其中最宝贵的信息是权利要求保护的化学空间,由Markush结构概括。挖掘专利中的化学实体具有挑战性,但PatentNetML方法的出现为这一问题提供了有效解决方案。
PatentNetML灵感来源于CSA方法,包括基于分子指纹计算专利内化合物相似性矩阵、设定阈值确定每个化合物的邻居数量、重新排序化合物的三个主要步骤。第二步类似于计算网络中节点的度,作者引入网络科学概念,将化合物视为网络节点,计算网络指标(如度中心性等),同时又进一步计算化合物ADMET和理化性质来构建机器学习模型。机器学习算法选择RF和XGBoost用于构建分类模型。为解决类别不平衡问题,进行下采样。最终通过整合表现良好的模型预测专利中的关键化合物(图2)。
研究收集整理了来自1555个专利的1000个药物或候选药物的分子,平均每个专利包含约206个分子,数据集涵盖1975年至2020年的各个时期,专利中涉及的适应症分析表明,前三类分别是肿瘤、某些感染性或寄生虫病和神经系统疾病(图3D)。数据集已在GitHub上公开。
PatentNetML方法的评估结果显示,模型在验证集和测试集上的平均ROC-AUC值分别达到0.83和0.84,0.84和0.87,采用共识方法结合多个模型的预测结果进行集成,验证集和测试集关键化合物预测的准确率分别提高至11.4%、37.9%和49.3%,以及22.7%、42.7%和54.0%(图4B)。案例研究表明,PatentNetML有效预测关键化合物,与传统方法相比,预测准确性显著提高。
比较PatentNetML与CSA、MI、FOG方法的预测结果,PatentNetML在识别关键化合物方面展现出优越性,特别是在预测专利中关键化合物的能力上。案例分析揭示了PatentNetML在预测和识别隐藏关键化合物方面的潜力,同时也指出其在特定情况下的局限性。生物活性数据等额外信息可能成为未来提升PatentNetML预测准确性的关键。
研究收集并分析了来自1555个专利的32万余条数据,涵盖1000个独特关键化合物,分析揭示了不同专利中潜在的内在特性和联系。传统化学信息学方法在关键化合物排序方面的准确性较低,而PatentNetML方法在预测专利关键化合物方面取得了更好的表现。然而,研究也存在局限性,例如偏离中心性模式假设的专利和与天然产物药物相关的专利对准确预测提出了挑战。
PatentNetML的提出为高效识别专利中潜在的候选药物提供了宝贵的见解,对药物发现和制药行业具有实际意义,为未来研究提供了方向,包括探索图嵌入等替代方法,并引入生物活性数据等额外知识来改进预测模型。