生物信息学/高通量测序数据的质量控制

Roche/454测序数据的质量控制 编辑

454测序数据格式 编辑

从测序公司拿到的454测序数据是SFF格式文件。该文件是二进制格式文件。可以使 用命令sffinfo来查看SFF文件的内容或转换成Fasta文件;可以使用sfffile对SFF文件进 行合并或分割。

由于454测序基本退出了测序舞台,因此本教程就不对454测序数据作详细解读。只 需要了解以下2点:

1.454测序结果文件为SFF格式,使用sffinfo来转换出fasta文件;
2.使用Newbler软件能对纯454数据进行基因组组装。

454测序数据质控 编辑

一般使用Newbler对纯454测序数据进行基因组组装。由于软件在组装前能进行数据 质控,因此,不需要另外进行质量控制。若使用其它软件如Velvet利用到454测序数据,则可以使用sffinfo将SFF文件转换成Fasta格式。默认情况下,使用sffinfo将SFF文件转换成Fasta格式时,则会对数据进行一些trim。命令简单用法见下一章Newbler基因组 组装软件的使用。

Illumina测序数据的质量控制 编辑

Illumina测序结果文件 编辑

一般情况下,我们从测序公司得到Illumina测序数据,其数据文件是Fastq格式。可以 称之为原始数据(Raw data)。

实际上,Illumina测序得到的Raw data其实是显微拍摄得到的图片信息。但公司会利 用Bcl2Fastq软件将图像信息转换成Fastq文件。由于在测序开始前,先要进行退火步骤将 引物结合到模板DNA上,然后从引物之后的Index标记序列开始测序,再继续测adapter 序列和插入的DNA片段序列。因此,Bcl2Fastq软件会先根据最开始的Index标记序列进 行数据分样处理,再去除adapter序列,最后给出Raw data的Fastq文件。理论上,从测 序公司得到的Raw‘data数据是不含有adapter序列的。但实际上,Raw data中依然会有 部分数据含有adapter序列。

若进行单端测序,则数据结果只有一个Fastq文件;若进行双端测序,则结果得到两个Fastq文件。双端测序的2个Fastq文件特点:

(1) 一般情况下,两个Fastq文件名称中分 别包含数字1和2,分别代表先后测序所得到的reads数据;

(2)这2个文件的行数必须一 致;

(3)在这2个文件相同行上的数据来自同一条DNA片段双末端的测序数据;

(4) Fastq文件中每4行表示一条read序列。