生物信息学/高通量测序数据比对

对高通量测序数据进行比对,就是将测序得到的reads定位到基因组序列上。由于测序 的数据量比较大,因此比对软件需要能快速将reads比对到参考序列上,并且能并行化运 行。对lllumina测序或454测序得到的short reads进行比对的常用软件有Bowtie、BWA、(基因组、原核转录组) HISAT和Tophat(真核转录组)。

illumina测序数据特点:

  1. 测序覆盖全基因组
  2. 测序数据读长短
  3. 测序数据具有一定的错误率
  4. 测序数据深度高
  5. 测序数据具有pair-end关系

短序列比对情况:

  • 第一种:一对一无错配比对
  • 第二种:一对一有错配比对
  • 第三种:一对多无错配比对
  • 第四种:一对多错配比对
  • 第五种:无法匹配

短序列比对统计:

  1. 计算reads利用率
  2. 计算覆盖度:测序和物理
  3. 计算覆盖比率

短序列比对的应用:

  1. 序列拼接评估
  2. 变异检测
  3. RNASeq
  4. 宏基因组16s测序
  5. NIPT检测