生物信息學/高通量測序數據的質量控制

Roche/454測序數據的質量控制 編輯

454測序數據格式 編輯

從測序公司拿到的454測序數據是SFF格式文件。該文件是二進制格式文件。可以使 用命令sffinfo來查看SFF文件的內容或轉換成Fasta文件;可以使用sfffile對SFF文件進 行合併或分割。

由於454測序基本退出了測序舞台,因此本教程就不對454測序數據作詳細解讀。只 需要了解以下2點:

1.454测序结果文件为SFF格式,使用sffinfo来转换出fasta文件;
2.使用Newbler软件能对纯454数据进行基因组组装。

454測序數據質控 編輯

一般使用Newbler對純454測序數據進行基因組組裝。由於軟件在組裝前能進行數據 質控,因此,不需要另外進行質量控制。若使用其它軟件如Velvet利用到454測序數據,則可以使用sffinfo將SFF文件轉換成Fasta格式。默認情況下,使用sffinfo將SFF文件轉換成Fasta格式時,則會對數據進行一些trim。命令簡單用法見下一章Newbler基因組 組裝軟件的使用。

Illumina測序數據的質量控制 編輯

Illumina測序結果文件 編輯

一般情況下,我們從測序公司得到Illumina測序數據,其數據文件是Fastq格式。可以 稱之為原始數據(Raw data)。

實際上,Illumina測序得到的Raw data其實是顯微拍攝得到的圖片信息。但公司會利 用Bcl2Fastq軟件將圖像信息轉換成Fastq文件。由於在測序開始前,先要進行退火步驟將 引物結合到模板DNA上,然後從引物之後的Index標記序列開始測序,再繼續測adapter 序列和插入的DNA片段序列。因此,Bcl2Fastq軟件會先根據最開始的Index標記序列進 行數據分樣處理,再去除adapter序列,最後給出Raw data的Fastq文件。理論上,從測 序公司得到的Raw『data數據是不含有adapter序列的。但實際上,Raw data中依然會有 部分數據含有adapter序列。

若進行單端測序,則數據結果只有一個Fastq文件;若進行雙端測序,則結果得到兩個Fastq文件。雙端測序的2個Fastq文件特點:

(1) 一般情況下,兩個Fastq文件名稱中分 別包含數字1和2,分別代表先後測序所得到的reads數據;

(2)這2個文件的行數必須一 致;

(3)在這2個文件相同行上的數據來自同一條DNA片段雙末端的測序數據;

(4) Fastq文件中每4行表示一條read序列。