疾病通路分析(Disease Pathway Analysis)是通过系统生物学方法,解析疾病发生发展过程中涉及的分子通路、信号网络及调控机制,从而揭示疾病的关键驱动因素、寻找潜在治疗靶点的重要手段。以下从核心内容、常用方法、工具与应用等方面展开说明:
-
数据来源:
-
高通量组学数据:转录组(RNA-seq)、蛋白质组(质谱)、基因组(突变 / CNV)、代谢组等,筛选疾病与正常样本间的差异表达基因(DEGs)或变异基因。
-
已知疾病基因数据库:OMIM(人类孟德尔遗传病数据库)、DisGeNET、GeneCards、GWAS Catalog(全基因组关联研究)。
-
关键基因识别:通过富集分析(如 GO、KEGG)、PPI 网络(蛋白互作网络)筛选枢纽基因(Hub Gene),或利用机器学习(如随机森林、LASSO)构建疾病预测模型。
-
经典信号通路:
-
癌症:PI3K-AKT-mTOR、RAS-RAF-MEK-ERK、Wnt/β-catenin、p53 通路等。
-
代谢疾病:AMPK、PPAR、胰岛素信号通路。
-
免疫疾病:NF-κB、JAK-STAT、T 细胞受体信号通路。
-
通路异常模式:
-
激活 / 抑制状态:通过磷酸化蛋白检测(如磷酸化 ELISA、Western blot)或通路报告基因实验(如荧光素酶报告基因)验证通路活性。
-
上下游调控关系:利用因果推理算法(如 DAGs、贝叶斯网络)推断通路间的调控层级。
-
疾病通常涉及多通路协同异常,如肿瘤中血管生成(VEGF 通路)与细胞增殖(ERK 通路)的交互作用。
-
分析方法:
-
通路互作网络:通过 StringDB、Reactome 等数据库构建通路 - 通路互作网络,识别核心交集节点(如共同调控的转录因子或激酶)。
-
网络模块分析:利用 MCODE、ClueGO 等工具挖掘紧密关联的通路模块,揭示疾病的关键调控枢纽。
-
同一疾病在不同细胞类型中通路活性不同(如肿瘤微环境中免疫细胞与癌细胞的通路差异)。
-
分析方法:
-
单细胞测序(scRNA-seq):解析不同细胞亚群的通路激活状态(如肿瘤浸润免疫细胞的 NF-κB 通路活化)。
-
空间转录组学:结合组织空间位置信息,定位通路异常的具体细胞类型及微环境。
-
目的:判断差异基因是否显著富集于已知通路中,识别疾病相关通路。
-
常用工具:
-
基于超几何检验:clusterProfiler(R 包)、GSEA(基因集富集分析)。
-
数据库:KEGG、Reactome、GO(生物过程)、PID(Pathway Interaction Database)。
-
示例:对癌症差异基因进行 KEGG 富集,发现 “癌症通路”“MAPK 信号通路” 显著富集。
-
基于基因表达的通路打分:
-
单样本 GSEA(ssGSEA):计算单个样本中通路基因的表达水平,生成通路活性评分。
-
通路拓扑结构整合:考虑通路中基因的上下游关系(如利用 Pathway Commons 的通路拓扑数据),通过加权算法(如 NetPath)提升预测准确性。
-
工具:PROGENy(预测通路活性的机器学习模型)、DoRothEA(转录因子调控通路活性)。
-
目的:区分通路异常是疾病的驱动因素还是伴随现象,识别因果性通路。
-
方法:
-
孟德尔随机化(MR):利用遗传变异(如 SNP)作为工具变量,推断通路与疾病的因果关系(如利用 GWAS 数据验证炎症通路与冠心病的因果性)。
-
扰动实验:通过 CRISPR-Cas9 敲除通路关键基因,观察细胞表型变化(如增殖、凋亡),验证通路的功能必要性。
-
目的:利用模式生物(如小鼠、斑马鱼)数据推断人类疾病通路的保守性,辅助机制验证。
-
方法:
-
同源基因映射:通过 OrthoDB、Ensembl Compara 获取物种间同源基因,比较通路在不同物种中的结构与功能差异。
-
动物模型通路验证:在疾病模型动物(如肿瘤小鼠模型)中检测通路活性,与人类数据交叉验证。
数据库 |
特点 |
KEGG |
经典通路数据库,覆盖代谢、信号传导、疾病通路,提供物种特异性通路图 |
Reactome |
基于文献的通路注释,强调通路间互作和分子机制,支持可视化 |
WikiPathways |
开源通路数据库,允许用户编辑和共享通路,适合个性化分析 |
PANTHER |
整合通路、GO 注释和蛋白家族,支持通路富集与进化分析 |
Pathway Commons |
包含通路互作数据,支持构建通路 - 基因 - 蛋白互作网络 |
-
富集分析:clusterProfiler(R)、WebGestalt、Metascape(支持多组学数据整合)。
-
网络构建:Cytoscape(插件如 ClueGO、MCODE)、Gephi(可视化复杂网络)。
-
机器学习建模:PyTorch/TensorFlow(通路活性预测)、scikit-learn(分类 / 回归分析)。
-
单细胞分析:Seurat(细胞分群与通路活性分析)、Monocle(轨迹分析中的通路动态)。
-
案例:在阿尔茨海默病(AD)中,通过通路分析发现 β- 淀粉样蛋白(Aβ)沉积激活小胶质细胞的 NF-κB 炎症通路,进而加剧神经元损伤,揭示炎症与 AD 进展的关联。
-
策略:
-
靶向异常激活通路:如癌症中抑制过度激活的 MEK 激酶(MEK 抑制剂用于 NRAS 突变肿瘤)。
-
通路组合靶向:针对通路串扰设计联合用药方案(如同时抑制 PI3K 和 mTOR 以克服单一靶点耐药)。
-
工具:DGIdb(药物 - 基因相互作用数据库)、CTD(化学 - 毒性 - 疾病数据库)。
-
通过通路活性评分构建预后模型(如利用 GSEA 计算的 “上皮 - 间质转化” 通路评分预测癌症患者生存率)。
-
分析现有药物的作用通路与疾病通路的重叠性(如利用 Connectivity Map 数据库,通过基因表达谱匹配发现老药新用机会,如二甲双胍通过 AMPK 通路用于癌症预防)。
-
数据异质性:不同研究的组学数据存在技术偏差,需整合多源数据(如转录组 + 蛋白质组 + 临床数据)。
-
因果性 vs 相关性:通路富集结果多为相关性,需结合实验验证因果关系。
-
动态性与时空特异性:通路活性随疾病进展和组织微环境变化,传统静态分析难以捕捉。
-
单细胞通路分析:解析单细胞分辨率下通路活性的异质性(如肿瘤单细胞中不同细胞亚群的 MAPK 通路激活差异)。
-
空间通路组学:结合空间转录组与蛋白质成像技术(如 CODEX、MIBI),定位通路活性的空间分布。
-
AI 驱动的通路预测:利用深度学习(如图神经网络 GNN)建模通路 - 疾病关联,预测未知通路功能(如 AlphaFold2 扩展至通路动态模拟)。
疾病通路分析通过整合多组学数据、计算模型与实验验证,系统性揭示疾病的分子网络机制,为靶点发现、药物设计及精准医疗提供理论基础。未来,随着单细胞技术、空间组学与 AI 算法的发展,通路分析将更注重动态性、时空特异性和多尺度整合,推动从 “通路相关性” 到 “因果机制” 的深入解析。