生物信息学/单细胞转录组上游分析

10x单细胞测序上游分析软件:Cell Ranger 编辑

Cell Ranger 是一组的单细胞测序分析工具,用于处理 Chromium 单细胞数据read比对、生成特征barcode矩阵、进行细胞聚类和其他下游分析等。 Cell Ranger 包括与 3' 和 5' 单细胞基因表达解决方案及相关产品相关的分析流程:

  • cellranger mkfastq 将 Illumina 测序仪生成的原始碱基call (BCL) 文件多路分解为 FASTQ 文件。 调用 Illumina 的 bcl2fastq 程序,生成具有特定于 10x 库的附加功能和简化的样本表格式。
  • cellranger countcellranger mkfastq 中获取 FASTQ 文件并执行比对、过滤、条形码计数和 UMI 计数。 使用 Chromium 细胞条形码生成特征barcode矩阵、确定聚类并执行基因表达分析。 count流程可以将同一 GEM 孔上的多次测序run作为输入。 cellranger count 还处理特征Barcode数据和基因表达read。
  • cellranger aggr 可以整合多次cellranger count的输出,将这些结果归一化为相同的测序深度,然后重新计算特征barcode 矩阵并对组合数据进行分析。 aggr 管道可用于将来自多个样本的数据组合成实验范围的特征barcode 矩阵和分析(去除批次效应)。
  • cellranger reanalyze 使用 cellranger countcellranger aggr 生成的特征barcode矩阵,并使用可调参数设置重新运行降维、聚类和基因表达算法。
  • cellranger multi 用于分析 Cell Multiplexing 数据。 从 cellranger mkfastq 输入 FASTQ 文件并执行比对、过滤、条形码计数和 UMI 计数。 使用 Chromium 细胞barcode生成特征barcode矩阵、确定聚类并执行基因表达分析。 cellranger multi 流程还支持特征Barcode数据的分析。
  • cellranger vdj 分析FASTQ文件,以V(D)J文库进行测序的。

Space Ranger:Visium 空间基因表达分析 编辑

Cell Ranger ATAC:ATAC-seq分析 编辑

Cell Ranger ARC:多组学ATAC和基因表达分析 编辑

Cell Ranger ARC 是一组分析工具,可处理 Chromium Single Cell Multiome ATAC + 基因表达测序数据,以生成与基因表达、染色质可及性及其关联相关的各种分析。 此外,由于 ATAC 和基因表达测量是在同一个细胞上进行的,我们能够进行将染色质可及性和基因表达联系起来的分析。

  • cellranger-arc mkfastq 多路分解原始碱基调用(BCL)通过Illumina测序仪生成到FASTQ文件的文件。它是围绕Illumina的bcl2fastq的包装,用另外的有用的功能,特定于10个库和一个简化的样品片材的格式。 相同的命令可用于解复用 ATAC 和 GEX 流通池。参考cellranger mkfastq用法
  • cellranger-arc count 从 cellranger-arc mkfastq 中获取 FASTQ 文件并执行对齐、过滤、条形码计数、峰值调用和 ATAC 和 GEX 分子的计数。 此外,它使用 Chromium 细胞条形码生成特征条形码矩阵、执行降维、确定聚类、对聚类进行差异分析并识别峰和基因之间的联系。 计数管道可以从同一 GEM 孔上的多次测序运行中获取输入。参考cell Ranger count参数
  • cellranger-arc aggr 聚合和分析多次运行 cellranger-arc 计数的输出(例如来自一个实验的多个样本)。 功能包括将输入运行归一化为每个细胞的相同中值片段(灵敏度)、检测可访问的染色质峰、生成峰值的计数矩阵和聚合数据的转录因子、降维、细胞聚类和聚类差异可访问性分析。参考cell Ranger aggr参数
  • cellranger-arc reanalyze 获取由 cellranger-arc count 或 cellranger-arc aggr 生成的分析文件并重新运行二次分析。 功能包括与细胞调用、降维、细胞聚类和聚类差异可访问性分析相关的可调参数设置。参考cell Ranger reanalyze参数

Cell Ranger DNA:单细胞CNV分析 编辑

Cell Ranger DNA includes five main pipelines:

  • cellranger-dna mkfastq 包装 Illumina 的 bcl2fastq 以解析 Chromium 制备的测序样本并将条形码和读取数据转换为 FASTQ 文件。
  • cellranger-dna cnvcellranger-dna mkfastq 中获取 FASTQ 文件并执行参考对齐、细胞调用、拷贝数估计和层次聚类。
  • cellranger-dna bamslicecellranger-dna cnv 中获取 BAM 文件,并将其子集到指定的感兴趣的细胞。
  • cellranger-dna aggr 聚合来自多次运行的 cellranger-dna cnvaggrreanalyze 的输出); 并重新进行二次分析,包括拷贝数估计和层次聚类。
  • cellranger-dna reanalyze 获取现有 cellranger-dna cnvaggreanalyze运行的 HDF5 输出,仅限于选定的barcode或感兴趣的组,并重新执行拷贝数估计和层次聚类。

Supernova:De Novo从头组装 编辑

Supernova 是用于从 Chromium Linked-Reads 进行从头组装的软件包,Chromium Linked-Reads 由来自单个 DNA 源的单个全基因组文库制成。 超新星的一个关键特征是它创建了二倍体组件,从而在很长的距离内分别代表母本和父本染色体。 几乎所有其他方法都将同源染色体合并为单个不正确的“共识”序列。 超新星是创建大型基因组二倍体组装的唯一实用方法。

Supernova 软件包包括两条处理流程和一条结果处理:

  • supernova mkfastq 包装 Illumina 的 bcl2fastq 以正确解析 Chromium 制备的测序样本并将barcode和read数据转换为 FASTQ 文件。参考cellranger mkfastq用法
  • supernova runsupernova mkfastq获取包含条形码读取的 FASTQ 文件,并构建基于图形的组件。 该方法是首先使用读取 kmers (K = 48) 构建一个程序集,然后使用读取对(K = 200)解析此程序集,然后使用条形码将这个程序集有效地解析为 K ≈ 100,000。 最后一步将同源染色体分离成相块,其长度通常为数兆碱基。
  • supernova mkoutput 采用 Supernova 的基于图形的组件,并生成多种适用于下游处理和分析的 FASTA 格式。

Long Ranger:基因组和外显子组分析(SNP,indel,结构变异) 编辑

Long Ranger 是一组分析工具,可处理 Chromium 测序输出以read比对和调用以及定相 SNP、插入缺失和结构变体。 有五个主要工具:

  • longranger mkfastq 包装 Illumina 的 bcl2fastq 以解析 Chromium 制备的测序样本并将barcode和read数据转换为 FASTQ 文件。 参考cellranger mkfastq用法
  • longranger wgs 从全基因组样本中提取多路分解的 FASTQ 文件并执行比对、重复数据删除和过滤,并使用 Chromium 分子barcode调用和定相 SNP、插入缺失和结构变异。
  • longranger targeted 从目标样本(例如外显子组)中获取 FASTQ 文件,并执行比对、重复数据删除和过滤,并使用 Chromium 分子barcode调用和定相 SNP、插入缺失和结构变体。 read与整个基因组对齐,但统计数据仅报告提供的靶向BED 文件中的 pulled-down区域。
  • longranger basic 从 longranger mkfastq 获取 FASTQ 文件并执行基本的barcode处理,包括校正、条码白名单和将barcode附加到read。
  • longranger align 执行比对。

这些工具将特定于 Chromium 的算法与广泛使用的组件相结合,例如 BWA(在 Lariat aligner 中使用)和 GATK。 输出以标准 BAM、VCF 和 BEDPE 格式提供,这些格式增加了远程信息。

bcl2fastq 编辑

Illumina bcl2fastq文档教学视频

bcl2fastq软件下载

其他原始数据处理软件和流程汇总 编辑

BCL转换为FASTQ格式 编辑

  • ranger系列的mkfastq(用法参考前文)

质量评估和校正 编辑

  • 质量评估软件:FastQC
  • 修剪Reads:trim_galore,Fastp

单细胞定量count 编辑

  • ranger系列软件的count命令
  • STARsolo类似于ranger系列软件的count命令
  • STAR比对(Subread,Hisat2)+FearureCountsHT-seq)计数
  • Kallisto/bustools,salmon/Alevin(10X and Drop-seq)直接从fatsq文件中定量
  • 全长转录本:STAR -> featureCounts
  • Tag-based数据集:Kallisto bus -> Bustools

参考文档和扩展学习 编辑

10x处理流程文档

关于本页面所有软件用法请参考:简介 - 生物信息软件参考文档 (gitbook.io)