全基因组测序(WGS)原理(精简、考试 / 答题通用版)
全基因组测序,就是把一个生物体整套基因组的 DNA 碱基序列(A/T/C/G),从头到尾全部读取出来,其核心原理可以概括为:先打碎、再测序、后拼接、最终解析。
一、基本原理流程
-
提取基因组 DNA
从细胞中提取完整的基因组总 DNA。
-
随机打断成短片段(文库构建)
基因组 DNA 太长无法直接测序,
用机械或酶切方法随机打断成小片段(通常几百 bp),
加上测序接头,建成DNA 文库。
-
高通量并行测序(二代测序为主)
以常见的 Illumina 边合成边测序为例:
-
将 DNA 片段结合到流动槽表面
-
PCR 扩增形成单克隆簇
-
加入荧光标记的 A/T/C/G 四种碱基
-
每合成一个碱基,发出对应荧光
-
相机拍摄记录颜色 → 读出每一段的序列
得到海量短读长序列(reads)。
-
序列比对与拼接
-
把测得的短 reads 与 ** 人类参考基因组(reference genome)** 进行比对
-
通过重叠区域拼接,还原出完整的基因组序列
-
获得个体基因组与参考基因组的差异:SNP、Indel、CNV、结构变异等。
-
数据分析与变异解读
找出所有基因突变位点,
注释是否在基因编码区、是否影响功能、是否与疾病或致癌相关。
二、核心原理一句话总结
将完整基因组随机打断为大量小片段,用高通量技术并行测定每一片段的碱基序列,再通过生物信息学比对拼接,还原出全基因组序列,并识别其中所有变异。
三、为什么它能评估 CRISPR 脱靶?
-
CRISPR 脱靶本质是在非目标位置产生未知突变
-
全基因组测序可以无差别、全覆盖地检测整个基因组
-
能发现预测不到的随机突变、大片段缺失、染色体异常
-
是判断脱靶最全面、最严谨的方法