Y - Mol 是由湖南大学、中南大学、湖南师范大学、湘潭大学的研究团队联合提出的一种多尺度生物医学知识指导的大语言模型,是首个为药物研发构建的大语言模型典范2。以下是关于该模型的详细介绍1:
-
模型构建:Y - Mol 基于 LLaMA2 模型构建,首先在生物医学出版物语料库上对 LLaMA2 进行自监督预训练,使其具备药物开发背景知识。然后,利用从药物相关领域知识和专家合成数据构建的指令对 LLaMA2 进行监督微调,增强其对药物开发流程中相互作用机制的理解能力。
-
数据来源:
-
生物医学文献:从 PubMed 上公开发表的生物医学文献构建大型文本语料库,涵盖生物信息学、计算化学和结构生物学等与药物研发相关的多个领域,解决数据获取成本高的问题。
-
生物医学知识图谱:利用大型生物医学知识图谱构建生物医学交互指令,使用精心设计的提示来模拟生物医学实体之间的复杂交互以及药物扰动的表达数据。
-
专家合成数据:从现有药物研发模型(如 ADMET 预测模型和药物重定位模型)中提取专家知识,设计提示模板,根据合成的数据构建一组指令,增强不同药物相关信息表示的一致性。
-
指令类型:
-
来自分子 - 文本对的指令:从 DrugBank 等药物数据库中提取分子 - 文本对,构建为问题和答案形式的指令,促进 Y - Mol 对药物的理解。
-
来自知识图谱的指令:将来自生物医学知识图谱的事实转换为自然语言描述,并结合上下文信息构建成问题和答案对,提高 Y - Mol 在药物相关任务上的性能。
-
模型性能:研究人员设计了涵盖先导化合物发现、临床前和临床预测等各个阶段的任务来评估 Y - Mol 的有效性,包括虚拟筛选、药物设计、性质预测和药物相互作用预测等。实验结果表明,Y - Mol 在各种药物研发任务上均取得了优异的性能。例如,在药物靶点相互作用预测方面优于 LLaMA2,在 DrugBank 和 DrugCentral 数据集上的 AUC 分数分别提高了 5.02% 和 4.13%;在预测化学和物理特性方面,Y - Mol 在所有任务上的 R² 分数均优于 LLaMA2,具有更强的泛化能力;在药物设计方面,Y - Mol 也展现出良好的性能,能够生成有效的分子,在多目标药物设计任务中表现出色,而 LLaMA2 - 7b 模型则无法生成有效的分子。此外,Y - Mol 还能准确预测给定分子的 LogD7.4 值,并有效识别潜在的药物相互作用。仅用 3 个月时间,该模型便成功设计并合成了 29 种潜在的抗菌肽,其中 26 种显示出广谱抗菌活性。
总之,Y - Mol 通过整合多尺度生物医学知识,构建了信息丰富的指令数据集,在药物 - 药物相互作用、药物 - 靶标相互作用、分子属性预测等方面表现优异,展现出强大的对各种药物研发任务的理解和通用性能力,为计算机辅助药物研发提供了一个强大的工具2。