生物信息學/單細胞轉錄組上游分析

10x單細胞測序上游分析軟體:Cell Ranger

編輯

Cell Ranger 是一組的單細胞測序分析工具,用於處理 Chromium 單細胞數據read比對、生成特徵barcode矩陣、進行細胞聚類和其他下游分析等。 Cell Ranger 包括與 3' 和 5' 單細胞基因表達解決方案及相關產品相關的分析流程:

  • cellranger mkfastq 將 Illumina 測序儀生成的原始鹼基call (BCL) 文件多路分解為 FASTQ 文件。 調用 Illumina 的 bcl2fastq 程序,生成具有特定於 10x 庫的附加功能和簡化的樣本表格式。
  • cellranger countcellranger mkfastq 中獲取 FASTQ 文件並執行比對、過濾、條形碼計數和 UMI 計數。 使用 Chromium 細胞條形碼生成特徵barcode矩陣、確定聚類並執行基因表達分析。 count流程可以將同一 GEM 孔上的多次測序run作為輸入。 cellranger count 還處理特徵Barcode數據和基因表達read。
  • cellranger aggr 可以整合多次cellranger count的輸出,將這些結果歸一化為相同的測序深度,然後重新計算特徵barcode 矩陣並對組合數據進行分析。 aggr 管道可用於將來自多個樣本的數據組合成實驗範圍的特徵barcode 矩陣和分析(去除批次效應)。
  • cellranger reanalyze 使用 cellranger countcellranger aggr 生成的特徵barcode矩陣,並使用可調參數設置重新運行降維、聚類和基因表達算法。
  • cellranger multi 用於分析 Cell Multiplexing 數據。 從 cellranger mkfastq 輸入 FASTQ 文件並執行比對、過濾、條形碼計數和 UMI 計數。 使用 Chromium 細胞barcode生成特徵barcode矩陣、確定聚類並執行基因表達分析。 cellranger multi 流程還支持特徵Barcode數據的分析。
  • cellranger vdj 分析FASTQ文件,以V(D)J文庫進行測序的。

Space Ranger:Visium 空間基因表達分析

編輯

Cell Ranger ATAC:ATAC-seq分析

編輯

Cell Ranger ARC:多組學ATAC和基因表達分析

編輯

Cell Ranger ARC 是一組分析工具,可處理 Chromium Single Cell Multiome ATAC + 基因表達測序數據,以生成與基因表達、染色質可及性及其關聯相關的各種分析。 此外,由於 ATAC 和基因表達測量是在同一個細胞上進行的,我們能夠進行將染色質可及性和基因表達聯繫起來的分析。

  • cellranger-arc mkfastq 多路分解原始鹼基調用(BCL)通過Illumina測序儀生成到FASTQ文件的文件。它是圍繞Illumina的bcl2fastq的包裝,用另外的有用的功能,特定於10個庫和一個簡化的樣品片材的格式。 相同的命令可用於解復用 ATAC 和 GEX 流通池。參考cellranger mkfastq用法
  • cellranger-arc count 從 cellranger-arc mkfastq 中獲取 FASTQ 文件並執行對齊、過濾、條形碼計數、峰值調用和 ATAC 和 GEX 分子的計數。 此外,它使用 Chromium 細胞條形碼生成特徵條形碼矩陣、執行降維、確定聚類、對聚類進行差異分析並識別峰和基因之間的聯繫。 計數管道可以從同一 GEM 孔上的多次測序運行中獲取輸入。參考cell Ranger count參數
  • cellranger-arc aggr 聚合和分析多次運行 cellranger-arc 計數的輸出(例如來自一個實驗的多個樣本)。 功能包括將輸入運行歸一化為每個細胞的相同中值片段(靈敏度)、檢測可訪問的染色質峰、生成峰值的計數矩陣和聚合數據的轉錄因子、降維、細胞聚類和聚類差異可訪問性分析。參考cell Ranger aggr參數
  • cellranger-arc reanalyze 獲取由 cellranger-arc count 或 cellranger-arc aggr 生成的分析文件並重新運行二次分析。 功能包括與細胞調用、降維、細胞聚類和聚類差異可訪問性分析相關的可調參數設置。參考cell Ranger reanalyze參數

Cell Ranger DNA:單細胞CNV分析

編輯

Cell Ranger DNA includes five main pipelines:

  • cellranger-dna mkfastq 包裝 Illumina 的 bcl2fastq 以解析 Chromium 製備的測序樣本並將條形碼和讀取數據轉換為 FASTQ 文件。
  • cellranger-dna cnvcellranger-dna mkfastq 中獲取 FASTQ 文件並執行參考對齊、細胞調用、拷貝數估計和層次聚類。
  • cellranger-dna bamslicecellranger-dna cnv 中獲取 BAM 文件,並將其子集到指定的感興趣的細胞。
  • cellranger-dna aggr 聚合來自多次運行的 cellranger-dna cnvaggrreanalyze 的輸出); 並重新進行二次分析,包括拷貝數估計和層次聚類。
  • cellranger-dna reanalyze 獲取現有 cellranger-dna cnvaggreanalyze運行的 HDF5 輸出,僅限於選定的barcode或感興趣的組,並重新執行拷貝數估計和層次聚類。

Supernova:De Novo從頭組裝

編輯

Supernova 是用於從 Chromium Linked-Reads 進行從頭組裝的軟體包,Chromium Linked-Reads 由來自單個 DNA 源的單個全基因組文庫製成。 超新星的一個關鍵特徵是它創建了二倍體組件,從而在很長的距離內分別代表母本和父本染色體。 幾乎所有其他方法都將同源染色體合併為單個不正確的「共識」序列。 超新星是創建大型基因組二倍體組裝的唯一實用方法。

Supernova 軟體包包括兩條處理流程和一條結果處理:

  • supernova mkfastq 包裝 Illumina 的 bcl2fastq 以正確解析 Chromium 製備的測序樣本並將barcode和read數據轉換為 FASTQ 文件。參考cellranger mkfastq用法
  • supernova runsupernova mkfastq獲取包含條形碼讀取的 FASTQ 文件,並構建基於圖形的組件。 該方法是首先使用讀取 kmers (K = 48) 構建一個程序集,然後使用讀取對(K = 200)解析此程序集,然後使用條形碼將這個程序集有效地解析為 K ≈ 100,000。 最後一步將同源染色體分離成相塊,其長度通常為數兆鹼基。
  • supernova mkoutput 採用 Supernova 的基於圖形的組件,並生成多種適用於下游處理和分析的 FASTA 格式。

Long Ranger:基因組和外顯子組分析(SNP,indel,結構變異)

編輯

Long Ranger 是一組分析工具,可處理 Chromium 測序輸出以read比對和調用以及定相 SNP、插入缺失和結構變體。 有五個主要工具:

  • longranger mkfastq 包裝 Illumina 的 bcl2fastq 以解析 Chromium 製備的測序樣本並將barcode和read數據轉換為 FASTQ 文件。 參考cellranger mkfastq用法
  • longranger wgs 從全基因組樣本中提取多路分解的 FASTQ 文件並執行比對、重複數據刪除和過濾,並使用 Chromium 分子barcode調用和定相 SNP、插入缺失和結構變異。
  • longranger targeted 從目標樣本(例如外顯子組)中獲取 FASTQ 文件,並執行比對、重複數據刪除和過濾,並使用 Chromium 分子barcode調用和定相 SNP、插入缺失和結構變體。 read與整個基因組對齊,但統計數據僅報告提供的靶向BED 文件中的 pulled-down區域。
  • longranger basic 從 longranger mkfastq 獲取 FASTQ 文件並執行基本的barcode處理,包括校正、條碼白名單和將barcode附加到read。
  • longranger align 執行比對。

這些工具將特定於 Chromium 的算法與廣泛使用的組件相結合,例如 BWA(在 Lariat aligner 中使用)和 GATK。 輸出以標準 BAM、VCF 和 BEDPE 格式提供,這些格式增加了遠程信息。

Illumina bcl2fastq文檔教學視頻

bcl2fastq軟體下載

其他原始數據處理軟體和流程匯總

編輯

BCL轉換為FASTQ格式

編輯
  • ranger系列的mkfastq(用法參考前文)

質量評估和校正

編輯
  • 質量評估軟體:FastQC
  • 修剪Reads:trim_galore,Fastp

單細胞定量count

編輯
  • ranger系列軟體的count命令
  • STARsolo類似於ranger系列軟體的count命令
  • STAR比對(Subread,Hisat2)+FearureCountsHT-seq)計數
  • Kallisto/bustools,salmon/Alevin(10X and Drop-seq)直接從fatsq文件中定量
  • 全長轉錄本:STAR -> featureCounts
  • Tag-based數據集:Kallisto bus -> Bustools

參考文檔和擴展學習

編輯

10x處理流程文檔

關於本頁面所有軟體用法請參考:簡介 - 生物信息軟體參考文檔 (gitbook.io)