全基因组测序(Whole Genome Sequencing, WGS)是对生物体全部基因组 DNA 进行测序的技术,可全面解析遗传信息(包括编码区、非编码区、调控元件及结构变异等)。以下是人类样本 WGS 的典型实验流程(其他物种需根据基因组特性调整),主要分为样本制备、建库测序、数据质控与分析三大阶段:
-
常规样本:新鲜血液(EDTA 抗凝)、唾液(含口腔上皮细胞)、组织(新鲜 / 冰冻,避免 FFPE 样本的高降解率)。
-
特殊样本:肿瘤样本需分离肿瘤细胞(纯度≥20%,可通过显微切割或流式细胞术),避免正常细胞污染;ctDNA 样本需采集血浆(用 Streck 管保存,防止白细胞破裂释放 DNA)。
-
提取方法:
-
血液 / 组织:磁珠法(如 QIAamp DNA Mini Kit)或柱提法,利用蛋白酶 K 消化细胞,分离基因组 DNA。
-
体液(如血浆):专用试剂盒(如 QIAamp Circulating Nucleic Acid Kit)提取游离 DNA(cfDNA)。
-
质控标准:
-
浓度:Qubit 检测 DNA 浓度≥10 ng/μL(WGS 建议起始量≥1 μg)。
-
纯度:NanoDrop 检测 OD260/280=1.8-2.0(纯 DNA),OD260/230>2.0(排除盐 / 有机物污染)。
-
完整性:Agilent Bioanalyzer 检测 DNA 片段分布,主峰应≥20 kb(降解样本可能导致测序偏向短片段)。
-
物理打断:超声破碎仪(如 Covaris)将基因组 DNA 随机打断为300-500 bp的片段(通过调整超声时间控制片段长度)。
-
酶法打断:转座酶(如 Tn5)随机切割 DNA,适用于低起始量样本(如单细胞 DNA),但片段均一性略低于超声法。
-
末端修复:使用 T4 DNA 聚合酶、Klenow 酶等修复打断产生的黏性末端,形成平末端。
-
加 A 尾:Klenow 片段(3'→5' 外切酶缺陷型)在 DNA 片段 3' 端添加单个腺嘌呤(A),便于后续接头连接(接头含互补的 T 尾)。
-
接头连接:
-
接头包含测序引物结合位点、样本条形码(Index)、测序平台适配序列(如 Illumina 的 Truseq 接头)。
-
连接反应需优化温度(如 20℃过夜)和接头浓度,避免自连或连接效率不足。
-
PCR 扩增:
-
通过有限循环数(通常 10-15 个循环)扩增连接接头的 DNA 片段,富集目标文库并引入 Index(用于多重测序时区分样本)。
-
注意:循环数过多会导致非特异性扩增和偏好性,需用 Qubit 定量后及时终止反应。
-
片段分布:Agilent Bioanalyzer 检测文库主峰是否符合预期(如 350-550 bp,含接头长度),排除小片段污染(如引物二聚体)。
-
浓度与总量:Qubit 测定文库浓度,计算总摩尔数(需换算为 nM),确保上机测序时浓度准确(如 Illumina NovaSeq 要求 2-4 nM)。
-
测序平台:
-
NovaSeq 6000:高通量,单次运行可测数百个样本,读长 2×150 bp 或 2×250 bp(PE150/PE250)。
-
HiSeq X Ten:高性价比,适合大规模人群队列研究,读长 2×150 bp。
-
测序深度:
-
人类样本:
-
普通 WGS:30×-50×(覆盖全基因组约 95% 区域,适用于变异检测)。
-
高深度 WGS:100×+(适用于低丰度嵌合突变或肿瘤克隆进化研究)。
-
计算公式:
测序数据量(Gb)= 基因组大小(3 Gb)× 测序深度 × 1.2(冗余系数)。
例:30× 深度需 3×30×1.2=108 Gb 数据量。
-
Flow Cell 制备:
-
将文库 DNA 加载到 Flow Cell(含 8 个泳道 Lane),通过桥式 PCR 在芯片表面生成 DNA 簇(Cluster),每个簇对应单个 DNA 分子的扩增产物。
-
边合成边测序(SBS):
-
加入带荧光标记的 dNTP(A/T/C/G),每次循环读取一个碱基,通过光学信号识别序列(如 PE150 模式分 150 次循环读取正反向序列)。
-
FASTQ 文件:包含序列(Read)和质量得分(Phred 值,Q30 对应错误率 0.1%),每个样本生成 2 个文件(R1 和 R2,双端测序)。
-
数据量计算:
-
单样本 PE150 测序:1 Gb 数据≈3300 万条 Read(每条 Read 150×2=300 bp)。
-
工具:FastQC、MultiQC(批量质控)。
-
关键指标:
-
碱基质量:平均 Q30 比例≥85%(优质数据),低质量区域(如末端)需过滤。
-
接头污染:检测是否存在未完全切割的接头序列(>5% 需重新过滤)。
-
GC 含量分布:人类基因组 GC 含量约 42%,异常分布可能提示样本污染或建库偏差。
-
过滤处理:使用 Trimmomatic 或 Cutadapt 去除接头、低质量碱基(如切除 Phred<20 的末端碱基),保留≥50 bp 的有效 Read。
-
参考基因组:人类通常使用 hg38 或 hg19(UCSC 或 GRCh38 版本)。
-
工具:BWA-MEM(适用于短读长,速度快)或 Bowtie2(灵敏度高),将 Clean Read 比对到参考基因组,生成 BAM 文件。
-
质控:比对率≥95%(高质量样本),Duplication rate≤15%(过高提示 PCR 扩增过度)。
-
单核苷酸变异(SNV)/ 插入缺失(Indel):
-
流程:使用 GATK(最佳实践流程)或 SAMtools,经局部重比对(Realignment)、碱基质量校正(BQSR)后,调用变异位点,生成 VCF 文件。
-
结构变异(SV):
-
工具:Delly、Manta(基于比对片段的异常模式,如软剪切、配对读长异常),检测缺失、插入、倒位、易位等。
-
拷贝数变异(CNV):
-
工具:CNVnator、GATK CNV,通过测序深度分析基因组片段拷贝数变化。
-
功能注释:ANNOVAR、VEP 等工具注释变异位点的基因组位置(如外显子、内含子、调控区)、基因功能、保守性(如 GERP 分数)。
-
临床意义:结合 ClinVar、OMIM、gnomAD 等数据库,判断变异是否为致病突变(如 PVS1+PM2+PP3 等 ACMG 标准评分)。
-
覆盖度分析:Bedtools 统计全基因组各区域覆盖深度,确保≥90% 的基因组达到目标深度(如 30× 样本中≥90% 区域≥20×)。
-
连锁不平衡(LD)分析:群体研究中,通过 Haploview 检测 SNP 间连锁关系,评估数据与参考群体的一致性。
-
Sanger 测序:对关键变异(如致病突变)进行 Sanger 验证,降低假阳性率(尤其适用于低频突变)。
-
qPCR / 荧光原位杂交(FISH):验证 CNV 或 SV 的真实性(如肿瘤中的 MYC 扩增)。
问题类型 |
可能原因 |
解决方案 |
比对率低 |
DNA 降解、接头连接效率低 |
重新提取高质量 DNA,优化接头连接体系 |
Duplication 率高 |
PCR 循环数过多、样本起始量过低 |
减少循环数,增加起始 DNA 量(≥1 μg) |
GC 偏好性显著 |
建库扩增偏差 |
改用酶法建库(如 Nextera)或优化 PCR 条件 |
结构变异假阳性 |
重复序列区域比对错误 |
结合长读长测序(如 PacBio/Nanopore)验证 |
-
样本质量是基础:高质量 DNA(高浓度、高完整性)是获得可靠数据的前提,尤其注意肿瘤样本的细胞纯度。
-
建库标准化:严格控制打断片段大小、接头浓度和 PCR 循环数,减少技术偏差。
-
数据质控贯穿全程:从实验端的 DNA 质检到分析端的覆盖度评估,需多环节监控数据质量。
-
技术互补:WGS 可结合长读长测序(如 PacBio)或单细胞测序,解决复杂结构变异或细胞异质性问题。
通过标准化流程和质量控制,WGS 能为疾病研究、进化分析、精准医学等领域提供全面的基因组信息