1. 1. 基本概念
  2. 2. 分析流程
Table of Contents ▼

全基因组测序是什么东西

很久没更新,在新环境中懒了不少,毕竟和最开始的打算一样,来这调理身体。2017年还剩半年,开始准备准备出国刷题,整理前端、网络的知识了。接下来半个月优化 BWA 或者叫重新一套流程,这个感觉还蛮有意思,顺便了解下生信的东西。

基本概念

全基因组测序

正常人有 22 对常染色体 加上 X, Y 这两条性染色体。因为存在碱基互补,只需要知道生物体所携带的一套完整的单倍体序列就可以了。
所以人类全基因组实际是 22 条常染色体加上 X 或者 X、Y。(总共有 30 亿个碱基)

全基因组测序就是检测出这30亿对碱基对从第1个到第30亿个到底是如何排列的。

“全基因组测序30X” 是什么意思

这是一个数据的要求: 平均把 30 亿个碱基测30次,但因为是随机的,所有的多有的少,这个在他们生物上不叫“多”和“少”,而叫“深”和“浅”。

测序越深,成本自然越高,所以有人做了一个梯度模拟,来计算深度和发现变异的能力的关系,最后的结论是:“平均深度达到 30X 的时候,可以覆盖基因组的 95%”

二代测序和三代测序

目前三代测序还不成熟,主要还是采用二代测序。
看了下文章,没看懂ㄟ( ▔, ▔ )ㄏ,我理解的两点区别:

  1. 二代读长较短,需要后续进行拼接;三代直接对一条 DNA 分子单独测序
  2. 二代需要采用 PCR, 三代不需要

其实很好奇,三代不用 PCR 是不就是因为二代把 DNA 打断成很小的片段了,而三代测一条就不要了;请教了一个生信的同学,他说,这是一部分原因,用 PCR 主要是复制很多次,方便检测,不然可能检测不到。蒙圈……

分析流程

  • QC(数据质量控制:测序质量、接头、污染序列)
  • alignment
  • variation
  • calling
  • annotation
  • statistic/visualization

首先是拿到基因组测序数据, 然后 进入 对比

variation 是很重要的部分,包括 snv, indel, cnv, sv

找到变异基因后,进入临床分析流程:参考一些公共数据库(OMIN, clinVAR, HGMD, GWAS) 和 公司的私有数据,对变异位点进行注释,从而评估个体患疾病的风险,用药建议可以参考 PharmaGKB