评估 Y-Mol 模型在药物研发中的性能需结合其核心任务(如虚拟筛选、药物设计、性质预测、相互作用预测等)设计多维度指标,以下是具体评估方法和标准:
任务目标:识别药物分子与靶标蛋白的潜在相互作用,筛选先导化合物。
评估指标:
-
ROC-AUC
-
原理:通过计算受试者工作特征曲线下面积,衡量模型区分 “正样本”(存在相互作用)和 “负样本”(无相互作用)的能力。
-
数据:使用公开数据集如 DrugBank、DrugCentral 或自建数据集,包含已知相互作用对和阴性对照。
-
标准:AUC 值越接近 1,性能越好。例如,Y-Mol 在 DrugBank 上的 AUC 比 LLaMA2 提升 5.02%,表明其预测准确性更高。
-
精确率(Precision)与召回率(Recall)
-
原理:精确率衡量预测为 “正样本” 中实际为正的比例,召回率衡量实际正样本被正确预测的比例。
-
应用:通过调整模型阈值,绘制 P-R 曲线,评估模型在不同场景下的平衡能力(如优先 “不漏掉潜在活性化合物” 或 “减少假阳性”)。
-
F1 分数
-
计算:精确率和召回率的调和平均值,综合反映模型的查准率和查全率。
任务目标:根据目标条件(如靶点结合能力、药代动力学性质)生成新分子结构(SMILES 序列)。
评估指标:
-
有效性(Validity)
-
定义:生成的分子是否为化学上合理的结构(如满足价键规则、无无效基团)。
-
方法:通过 SMILES 解析工具(如 RDKit)验证分子结构的化学合法性,计算有效分子占比。
-
唯一性(Uniqueness)
-
定义:生成的分子是否与训练数据或已知分子重复。
-
方法:对比生成分子与数据库(如 ZINC、ChEMBL)的相似性,统计唯一分子比例。
-
新颖性(Novelty)
-
定义:生成分子与现有药物或已知活性化合物的结构差异程度。
-
方法:计算生成分子与参考数据集的平均指纹相似度(如 ECFP4),相似度越低则新颖性越高。
-
多样性(Diversity)
-
定义:生成分子在化学空间中的分布广度。
-
方法:通过聚类分析(如层次聚类、t-SNE)观察生成分子的结构分散性,或计算分子指纹的香农熵。
-
成药性(Drug-likeness)
-
定义:生成分子符合药物相似性规则(如 Lipinski 规则)的程度。
-
指标:计算 QED(定量估计药物相似性)、SA(合成可及性评分)、LogP 等参数,评估分子成药潜力。
任务目标:预测化合物的物理化学性质、药代动力学特征及毒性。
评估指标:
-
回归指标
-
均方根误差(RMSE):衡量预测值与真实值的平均偏差,RMSE 越小越准确。
-
决定系数(R²):反映模型解释数据变异的能力,R² 越接近 1,预测效果越好。
-
示例:Y-Mol 在 LogD7.4 值预测中 R² 优于 LLaMA2,表明其对理化性质的预测更可靠。
-
分类指标(如毒性预测)
-
准确率(Accuracy):预测正确的样本占比。
-
灵敏度(Sensitivity):正确预测 “阳性” 样本(如有毒)的比例。
-
特异度(Specificity):正确预测 “阴性” 样本(如无毒)的比例。
任务目标:预测药物联用可能引发的相互作用(如代谢酶抑制、转运体竞争)。
评估指标:
-
ROC-AUC 与 PR-AUC
-
原理:同 “药物 - 靶标相互作用预测”,但数据聚焦于药物联用的不良反应事件(如 FDA 不良事件报告系统数据)。
-
专家验证
-
方法:将模型预测的高风险相互作用对提交给临床药理学专家,通过文献检索或临床试验数据验证其合理性。
任务目标:验证模型预测的分子是否具有真实生物活性。
评估指标:
-
实验验证率
-
定义:模型推荐的先导化合物中,经体外 / 体内实验(如细胞活性测定、动物模型)验证有效的比例。
-
示例:Y-Mol 在 3 个月内设计并合成 29 种抗菌肽,其中 26 种具有广谱抗菌活性,验证率达 89.7%。
-
研发效率提升
-
对比指标:与传统实验方法相比,模型缩短的研发周期、降低的合成成本或减少的实验试错次数。
-
跨领域迁移性能
-
方法:在非训练领域(如罕见病药物、特殊靶点类型)测试模型性能,观察指标是否显著下降。
-
小样本学习能力
-
场景:仅使用少量已知数据(如罕见靶点的 10-20 个活性化合物)时,评估模型预测准确性。
-
数据划分:将数据集分为训练集(70%)、验证集(15%)、测试集(15%),确保测试集包含未见分子或相互作用对。
-
基线对比:与传统机器学习模型(如随机森林、SVM)或其他大模型(如 LLaMA2、GPT-4)对比关键指标。
-
多任务综合评分:为不同任务分配权重(如虚拟筛选 40%、药物设计 30%、性质预测 30%),生成综合性能得分。
-
持续迭代:结合新实验数据定期更新模型,并重新评估性能,确保其适应最新研发需求。
通过以上多维度评估,可全面衡量 Y-Mol 模型在药物研发中的实用性、准确性和创新性,为其优化和临床转化提供科学依据。