利用大模型进行药物靶点发现,主要是通过分析生物医学数据、挖掘疾病与基因 / 蛋白质的关联,从而识别潜在治疗靶点。以下是具体方法、技术路径及案例说明:
-
多模态数据输入:
大模型需整合基因组学(如基因突变数据)、转录组学(基因表达谱)、蛋白质组学(蛋白质结构与相互作用)、临床数据(疾病表型、患者样本)等多维度数据。
-
工具举例:
-
基因组数据:通过 BERT 类模型(如DNA-BERT)分析核苷酸序列,识别致病突变(如癌症驱动基因)。
-
蛋白质数据:利用AlphaFold预测蛋白质三维结构,结合Molformer分析蛋白质 - 配体相互作用。
-
特征工程:
将生物数据转化为数值化特征(如基因表达量、蛋白质序列嵌入向量),供模型学习疾病与靶点的关联模式。
-
因果关系挖掘:
通过大模型分析疾病相关通路(如 PI3K-AKT 通路),识别关键节点基因。例如:
-
Geneformer通过单细胞转录组数据构建基因调控网络,定位驱动疾病的核心基因。
-
**Graph Neural Networks(GNN)** 建模蛋白质 - 蛋白质相互作用(PPI)网络,筛选枢纽蛋白作为靶点。
-
跨物种映射:
利用模型在模式生物(如果蝇、小鼠)数据中学习保守机制,推断人类靶点(如通过DeepTarget预测跨物种靶点)。
-
多任务学习:
训练模型同时预测靶点的成药性(如可 druggability 分数)、安全性(如脱靶风险)和疾病相关性。例如:
-
TxGemma通过 700 万治疗实体数据训练,输出靶点与疾病的关联概率及成药潜力。
-
强化学习(RL):
结合模拟进化算法,优化靶点组合(如针对复杂疾病的多靶点策略),减少单一靶点耐药性问题。
-
湿实验验证:
模型预测的靶点需通过 CRISPR-Cas9 敲除、RNA 干扰(RNAi)或小分子抑制剂实验验证功能。
-
反馈优化:
将实验结果反向输入模型,更新训练数据,提升后续预测准确性(如AlphaFold2通过实验结构数据持续迭代)。
-
案例:Google DeepMind 与癌症靶点预测
-
利用AlphaFold预测肿瘤抗原蛋白结构,结合TxGemma分析其与免疫细胞受体的相互作用,识别潜在免疫治疗靶点(如突变特异性抗原)。
-
成果:在非小细胞肺癌中预测出多个新抗原靶点,部分进入临床前验证阶段。
-
案例:清华大学 BioMedGPT 与单基因病靶点
-
通过整合罕见病患者全基因组测序数据与临床表型,BioMedGPT利用跨模态学习(文本 + 基因组)定位致病基因。
-
成果:在脊髓性肌萎缩症(SMA)中发现 SMN2 基因剪接调控新靶点,助力反义 RNA 药物设计。
-
案例:华为云盘古大模型与糖尿病靶点
-
分析糖尿病患者肠道微生物组、血清代谢组与转录组数据,通过盘古药物分子大模型识别关键代谢酶(如 AMPK 通路相关激酶)。
-
成果:预测出 AMPK 激活剂的新结合位点,缩短候选化合物筛选周期至传统方法的 1/3。
-
挑战:生物数据存在噪声(如测序误差)、样本量小(如罕见病数据稀缺),且涉及患者隐私。
-
解决方案:
-
采用联邦学习(Federated Learning),在不共享原始数据的前提下联合训练模型(如NVIDIA Clara平台)。
-
使用数据增强技术(如基因序列随机突变模拟)扩充小样本数据集。
-
挑战:深度学习模型常被视为 “黑箱”,难以解释靶点预测的生物学机制。
-
解决方案:
-
开发可解释性工具,如 **SHAP(SHapley Additive exPlanations)** 分析基因特征对预测结果的贡献度。
-
结合知识图谱(如DrugBank),将模型预测与已知通路知识关联,生成可视化机制报告。
-
挑战:生物学家与 AI 工程师在数据标准、算法理解上存在鸿沟。
-
解决方案:
-
建立 “湿实验 - 干计算” 协同工作流,如药企与 AI 公司联合开发靶点发现平台(如辉瑞与 Exscientia 合作的Centaur Chemistry)。
-
开发低代码 / 无代码工具(如腾讯觅影靶点发现平台),降低生物学家使用门槛。
-
生成式 AI 驱动的靶点创新:
利用扩散模型(Diffusion Models)生成全新蛋白质靶点,突破天然生物分子限制(如Meta 的 ESMFold已实现从头设计蛋白质)。
-
实时动态建模:
结合时空组学数据(如单细胞空间转录组),开发动态大模型模拟靶点在不同组织微环境中的功能变化。
-
临床转化导向的靶点评估:
整合真实世界数据(RWD)与临床试验数据,构建从靶点到临床疗效的全链条预测模型,提升转化成功率。
大模型通过整合多组学数据、模拟生物机制、优化靶点优先级,正在重塑药物靶点发现的范式。其核心价值在于从海量数据中挖掘隐性关联,并通过跨学科技术融合加速从 “靶点发现” 到 “临床验证” 的转化。未来,随着模型可解释性、数据隐私保护技术的突破,大模型将成为精准医疗时代靶点创新的核心引擎。