当前位置:主页 > 医药资讯 > 文章内容

全基因组测序(WGS)的实验流程是什么?

作者:中华医学网发布时间:2025-06-10 09:12浏览:

全基因组测序(Whole Genome Sequencing, WGS)是对生物体全部基因组 DNA 进行测序的技术,可全面解析遗传信息(包括编码区、非编码区、调控元件及结构变异等)。以下是人类样本 WGS 的典型实验流程(其他物种需根据基因组特性调整),主要分为样本制备、建库测序、数据质控与分析三大阶段:

一、样本制备与 DNA 提取

1. 样本类型选择

  • 常规样本:新鲜血液(EDTA 抗凝)、唾液(含口腔上皮细胞)、组织(新鲜 / 冰冻,避免 FFPE 样本的高降解率)。
  • 特殊样本:肿瘤样本需分离肿瘤细胞(纯度≥20%,可通过显微切割或流式细胞术),避免正常细胞污染;ctDNA 样本需采集血浆(用 Streck 管保存,防止白细胞破裂释放 DNA)。

2. DNA 提取与质控

  • 提取方法
    • 血液 / 组织:磁珠法(如 QIAamp DNA Mini Kit)或柱提法,利用蛋白酶 K 消化细胞,分离基因组 DNA。
    • 体液(如血浆):专用试剂盒(如 QIAamp Circulating Nucleic Acid Kit)提取游离 DNA(cfDNA)。
  • 质控标准
    • 浓度:Qubit 检测 DNA 浓度≥10 ng/μL(WGS 建议起始量≥1 μg)。
    • 纯度:NanoDrop 检测 OD260/280=1.8-2.0(纯 DNA),OD260/230>2.0(排除盐 / 有机物污染)。
    • 完整性:Agilent Bioanalyzer 检测 DNA 片段分布,主峰应≥20 kb(降解样本可能导致测序偏向短片段)。

二、文库构建(关键步骤)

1. DNA 片段化

  • 物理打断:超声破碎仪(如 Covaris)将基因组 DNA 随机打断为300-500 bp的片段(通过调整超声时间控制片段长度)。
  • 酶法打断:转座酶(如 Tn5)随机切割 DNA,适用于低起始量样本(如单细胞 DNA),但片段均一性略低于超声法。

2. 末端修复与加 A 尾

  • 末端修复:使用 T4 DNA 聚合酶、Klenow 酶等修复打断产生的黏性末端,形成平末端。
  • 加 A 尾:Klenow 片段(3'→5' 外切酶缺陷型)在 DNA 片段 3' 端添加单个腺嘌呤(A),便于后续接头连接(接头含互补的 T 尾)。

3. 接头连接与 PCR 扩增

  • 接头连接
    • 接头包含测序引物结合位点、样本条形码(Index)、测序平台适配序列(如 Illumina 的 Truseq 接头)。
    • 连接反应需优化温度(如 20℃过夜)和接头浓度,避免自连或连接效率不足。
  • PCR 扩增
    • 通过有限循环数(通常 10-15 个循环)扩增连接接头的 DNA 片段,富集目标文库并引入 Index(用于多重测序时区分样本)。
    • 注意:循环数过多会导致非特异性扩增和偏好性,需用 Qubit 定量后及时终止反应。

4. 文库质控

  • 片段分布:Agilent Bioanalyzer 检测文库主峰是否符合预期(如 350-550 bp,含接头长度),排除小片段污染(如引物二聚体)。
  • 浓度与总量:Qubit 测定文库浓度,计算总摩尔数(需换算为 nM),确保上机测序时浓度准确(如 Illumina NovaSeq 要求 2-4 nM)。

三、上机测序(以 Illumina 平台为例)

1. 测序模式选择

  • 测序平台
    • NovaSeq 6000:高通量,单次运行可测数百个样本,读长 2×150 bp 或 2×250 bp(PE150/PE250)。
    • HiSeq X Ten:高性价比,适合大规模人群队列研究,读长 2×150 bp。
  • 测序深度
    • 人类样本:
      • 普通 WGS:30×-50×(覆盖全基因组约 95% 区域,适用于变异检测)。
      • 高深度 WGS:100×+(适用于低丰度嵌合突变或肿瘤克隆进化研究)。
    • 计算公式:
      测序数据量(Gb)= 基因组大小(3 Gb)× 测序深度 × 1.2(冗余系数)。
      例:30× 深度需 3×30×1.2=108 Gb 数据量。

2. 簇生成与测序

  • Flow Cell 制备
    • 将文库 DNA 加载到 Flow Cell(含 8 个泳道 Lane),通过桥式 PCR 在芯片表面生成 DNA 簇(Cluster),每个簇对应单个 DNA 分子的扩增产物。
  • 边合成边测序(SBS)
    • 加入带荧光标记的 dNTP(A/T/C/G),每次循环读取一个碱基,通过光学信号识别序列(如 PE150 模式分 150 次循环读取正反向序列)。

四、数据产出与初步质控

1. 原始数据格式

  • FASTQ 文件:包含序列(Read)和质量得分(Phred 值,Q30 对应错误率 0.1%),每个样本生成 2 个文件(R1 和 R2,双端测序)。
  • 数据量计算
    • 单样本 PE150 测序:1 Gb 数据≈3300 万条 Read(每条 Read 150×2=300 bp)。

2. 质量控制(QC)

  • 工具:FastQC、MultiQC(批量质控)。
  • 关键指标
    • 碱基质量:平均 Q30 比例≥85%(优质数据),低质量区域(如末端)需过滤。
    • 接头污染:检测是否存在未完全切割的接头序列(>5% 需重新过滤)。
    • GC 含量分布:人类基因组 GC 含量约 42%,异常分布可能提示样本污染或建库偏差。
  • 过滤处理:使用 Trimmomatic 或 Cutadapt 去除接头、低质量碱基(如切除 Phred<20 的末端碱基),保留≥50 bp 的有效 Read。

五、数据分析流程(生物信息学部分)

1. 序列比对(Mapping)

  • 参考基因组:人类通常使用 hg38 或 hg19(UCSC 或 GRCh38 版本)。
  • 工具:BWA-MEM(适用于短读长,速度快)或 Bowtie2(灵敏度高),将 Clean Read 比对到参考基因组,生成 BAM 文件。
  • 质控:比对率≥95%(高质量样本),Duplication rate≤15%(过高提示 PCR 扩增过度)。

2. 变异检测(Variant Calling)

  • 单核苷酸变异(SNV)/ 插入缺失(Indel)
    • 流程:使用 GATK(最佳实践流程)或 SAMtools,经局部重比对(Realignment)、碱基质量校正(BQSR)后,调用变异位点,生成 VCF 文件。
  • 结构变异(SV)
    • 工具:Delly、Manta(基于比对片段的异常模式,如软剪切、配对读长异常),检测缺失、插入、倒位、易位等。
  • 拷贝数变异(CNV)
    • 工具:CNVnator、GATK CNV,通过测序深度分析基因组片段拷贝数变化。

3. 变异注释与解读

  • 功能注释:ANNOVAR、VEP 等工具注释变异位点的基因组位置(如外显子、内含子、调控区)、基因功能、保守性(如 GERP 分数)。
  • 临床意义:结合 ClinVar、OMIM、gnomAD 等数据库,判断变异是否为致病突变(如 PVS1+PM2+PP3 等 ACMG 标准评分)。

六、质量控制与验证(关键环节)

1. 生物信息学质控

  • 覆盖度分析:Bedtools 统计全基因组各区域覆盖深度,确保≥90% 的基因组达到目标深度(如 30× 样本中≥90% 区域≥20×)。
  • 连锁不平衡(LD)分析:群体研究中,通过 Haploview 检测 SNP 间连锁关系,评估数据与参考群体的一致性。

2. 实验验证

  • Sanger 测序:对关键变异(如致病突变)进行 Sanger 验证,降低假阳性率(尤其适用于低频突变)。
  • qPCR / 荧光原位杂交(FISH):验证 CNV 或 SV 的真实性(如肿瘤中的 MYC 扩增)。

七、常见问题与优化策略

问题类型 可能原因 解决方案
比对率低 DNA 降解、接头连接效率低 重新提取高质量 DNA,优化接头连接体系
Duplication 率高 PCR 循环数过多、样本起始量过低 减少循环数,增加起始 DNA 量(≥1 μg)
GC 偏好性显著 建库扩增偏差 改用酶法建库(如 Nextera)或优化 PCR 条件
结构变异假阳性 重复序列区域比对错误 结合长读长测序(如 PacBio/Nanopore)验证

总结:WGS 实验流程的核心要点

  1. 样本质量是基础:高质量 DNA(高浓度、高完整性)是获得可靠数据的前提,尤其注意肿瘤样本的细胞纯度。
  2. 建库标准化:严格控制打断片段大小、接头浓度和 PCR 循环数,减少技术偏差。
  3. 数据质控贯穿全程:从实验端的 DNA 质检到分析端的覆盖度评估,需多环节监控数据质量。
  4. 技术互补:WGS 可结合长读长测序(如 PacBio)或单细胞测序,解决复杂结构变异或细胞异质性问题。
 
通过标准化流程和质量控制,WGS 能为疾病研究、进化分析、精准医学等领域提供全面的基因组信息