全基因组测序(Whole Genome Sequencing, WGS)是对生物体整个基因组的所有碱基序列进行测定的技术,广泛应用于医学、生物学、遗传学等领域。以下是其优势、劣势的详细分析:
-
无偏性:可检测基因组中所有 DNA 序列(包括编码区、非编码区、调控区域、重复序列等),避免遗漏传统靶向测序(如外显子测序)未覆盖的区域。
-
发现未知变异:适用于探索复杂疾病(如癌症、罕见遗传病)中与非编码区变异相关的机制,例如启动子突变、增强子异常等。
-
单碱基分辨率:可精准识别单核苷酸变异(SNV)、插入缺失(Indel)等微小突变。
-
结构变异检测:通过生物信息学分析,可发现染色体结构变异(如拷贝数变异 CNV、倒位、易位等),这些变异在肿瘤发生和遗传疾病中具有重要意义。
-
疾病机制研究:在癌症中,WGS 可同时分析肿瘤细胞的基因组突变负荷、驱动基因、克隆演化等,为精准治疗提供依据(如靶向药物选择、免疫治疗标志物分析)。
-
罕见病诊断:对传统检测(如核型分析、靶向测序)未明确病因的罕见遗传病,WGS 可通过全基因组比对发现新的致病突变。
-
追踪变异动态:例如在肿瘤治疗过程中,通过对比治疗前后的 WGS 数据,监测耐药突变的出现或克隆演变,指导治疗方案调整。
-
长期价值:一次测序获得的全基因组数据可用于多种后续分析(如遗传风险评估、群体进化研究等),避免重复检测。
-
实验成本:相比靶向测序(如 Panel 测序、外显子测序),WGS 的文库构建、测序通量需求更高,单个样本成本通常在数百至数千美元(因测序深度和技术平台而异)。
-
数据处理挑战:
-
单次测序产生数十 GB 至数百 GB 数据,需要高性能计算(HPC)和存储资源。
-
分析流程涉及序列比对、变异检测、功能注释、致病性评估等多个步骤,依赖专业生物信息学工具和数据库(如 GATK、ANNOVAR、ClinVar),对技术人员要求高。
-
深度不足的风险:低深度测序(如 10×-30×)可能漏检低频体细胞变异或镶嵌突变,而高深度测序(如 100× 以上)成本显著增加。
-
覆盖盲区:基因组中存在高 GC 含量区域、重复序列等,可能导致测序 reads 无法有效比对,形成检测盲区。
-
意义未明变异(VUS):非编码区变异或罕见突变的功能注释困难,可能无法明确其临床意义,尤其是在缺乏人群数据库(如 gnomAD)或功能验证数据时。
-
多因素疾病的局限性:许多疾病由遗传和环境因素共同作用,WGS 仅提供遗传信息,需结合转录组、表观组等多组学数据综合分析。
-
意外发现:可能检测到与受检者无关的遗传信息(如携带者状态、迟发性遗传病风险),引发伦理争议和心理负担。
-
数据安全:全基因组数据包含个体独特的遗传标识,存储和传输过程中需严格遵守隐私保护法规(如 GDPR、HIPAA)。
-
无法检测某些变异类型:
-
低于测序读长的重复序列扩增(如三核苷酸重复,与亨廷顿病相关)可能漏检。
-
线粒体 DNA 异质性检测需特殊处理,传统 WGS 可能无法精准量化。
-
肿瘤样本的污染问题:若肿瘤组织中混杂大量正常细胞(如穿刺样本),可能稀释突变信号,影响体细胞变异的检出灵敏度。
适合选择 WGS 的场景 |
不适合或需谨慎选择的场景 |
1. 罕见遗传病或肿瘤的未知病因诊断 |
1. 仅需检测已知热点突变的遗传病筛查 |
2. 肿瘤多组学研究或克隆演化分析 |
2. 大规模人群筛查(成本效益低) |
3. 动态监测疾病进展或治疗耐药性 |
3. 对数据解读要求低的常规检测 |
4. 复杂疾病的遗传机制探索 |
4. 样本质量差(如降解 DNA、低细胞量) |
随着高通量测序成本下降、长读长技术(如 PacBio、Oxford Nanopore)普及和人工智能辅助分析工具的发展,WGS 的劣势正逐步改善。例如,长读长测序可提升结构变异和重复序列的检测准确性,AI 算法可优化变异致病性预测,降低 VUS 比例。未来,WGS 有望在精准医学和预防性健康管理中发挥更核心的作用。