ChAMP

ChAMP流程图

ChAMP（The Chip Analysis Methylation Pipeline）是一个甲基化分析流程。

用法参考：ChAMP - 生物信息软件参考文档 (gitbook.com)

ChAMP：450k 芯片分析甲基化套件

Morris TJ, Butcher LM, Teschendorff AE, Chakravarthy AR, Wojdacz TK, Beck S (2014). “ChAMP: 450k Chip Analysis Methylation Pipeline.” Bioinformatics, 30(3), 428-430. doi: 10.1093/bioinformatics/btt684.

摘要

Illumina Infinium HumanMethylation450 BeadChip 是用于高通量 DNA 甲基化分析的新平台。最近发表了几种标准化和处理这些数据的方法。在这里，展示了一个集成的分析工具，提供了最流行的标准化方法的选择，同时还引入了用于调用差异甲基化区域和检测拷贝数变异的新方法。

引言

DNA甲基化是研究最多的表观遗传修饰。 DNA 甲基化模式的变化与许多疾病的发展有关，并被定义为癌症的主要标志（Feinberg，2007）。近年来，全基因组 DNA 甲基化检测的技术发展迅速，存在多种选择（Bock，2012）。尽管亚硫酸氢盐转化结合二代测序是最全面的方法，但目前仅适用于小样本量，并且应用于大规模研究仍然具有挑战性。 Infinium HumanMethylation450 BeadChip (www.illumina.com) 为这个快速发展的领域提供了在通量、覆盖范围和成本方面的有吸引力的平衡。它扩展了之前的 27k 阵列，提供了对 >480 000 个 CpG 位点的评估，涵盖了人类基因组的关键特征，包括 CpG 岛、海岸和货架以及启动子、基因体、基因间和印记区域（Bibikova 等， 2011）。根据 Pubmed 和 GEO 的提交，450k 阵列已成为表观基因组关联研究的首选平台（Rakyan 等，2011）。

这项新技术的挑战在于分析。 450k 分析工具应包括几个重要步骤：标准化、批量效应分析、单核苷酸多态性 (SNP) 标记、拷贝数畸变 (CNA) 检测和甲基化可变位置 (MVP) 分割为生物学相关的 DMR。归一化尤其重要，因为 450k 平台结合了两种不同的检测，Infinium I 和 Infinium II（Bibikova 等人，2011 年；Sandoval 等人，2011 年）。现在有许多标准化方法可用，它们以略有不同的方式处理这个问题（Marabita 等，2013）。按照发展的时间顺序，它们是基于峰值的校正 (PBC)（Dedeurwaerder 等人，2011 年）、SQN（Touleimat 和 Tost，2012 年）、阵列归一化内的子集分位数（SWAN）（Maksimovic 等人，2012 年）和Beta 混合物分位数归一化 (BMIQ)（Teschendorff 等人，2013 年）。

描述

芯片分析甲基化工具 (ChAMP) 包是一种流水线，它集成了当前可用的 450k 分析方法并提供了自己的新颖功能。它是在 R 中实现的，可以在任何具有现有 R（版本 >3.0）和 Bioconductor 安装的平台上运行。 ChAMP 将原始 IDAT 文件作为输入，使用 minfi 提供的数据导入、质量控制和标准化选项（Hansen 和 Ayree，2011 年）。默认情况下，对至少一个样品中检测 P > 0.01 的探针的原始数据进行过滤。如果原始数据不可用，用户可以上传 M-、β- 或原始强度值的矩阵。用户可以决定过滤掉单个探针或探针组，例如 X 和 Y 染色体。根据用户指定的次要等位基因频率在 1000 基因组项目（1000 基因组项目联盟，2012）定义的四个群体之一中过滤 SNP 的选项也可用。这可以防止由于下游统计分析中的遗传变异导致的偏差，旨在识别差异甲基化的 CpG。批量效应分析是对原始数据进行的，如果用户提供可用于特定研究的额外协变量信息（即年龄、性别等），则可以更彻底。在预处理之后，后续步骤包括归一化、DMR 调用和 CNA 检测，如图 1 所示。

ChAMP 包括用于调整 2 型偏差（正方形）的预处理和已发布方法以及用于批次效应评估、DMR 校正和 CNA 分析的新方法（圆圈）

type2偏差的调整

在运行基本质量控制指标后，建议执行阵列内归一化以调整 Infinium 2 型探针设计引入的偏差数据。 ChAMP 提供了四种最近专门为 450k 数据开发的方法供您选择。默认情况下，ChAMP 实施 BMIQ（Teschendorff 等人，2013 年），这是由 Marabita 等人确定的。（2013），作为一种有效的方法。用户还可以选择 SWAN (Maksimovic et al., 2012)、PBC (Dedeurwaerder et al., 2011) 或无归一化。

批量效果

为了评估与生物变异相关的批次效应的大小，将奇异值分解应用于数据矩阵以获得变异的最重要组成部分（Teschendorff 等，2011）。渲染主成分和技术/生物因素之间关联强度的热图使用户能够轻松地可视化是否存在批次效应。如果存在，ChAMP 中有一个选项可以使用 ComBat 来纠正这些影响（Johnson 等，2007）。

MVP 和 DMR 调用

对于 MVP 调用，ChAMP 使用 Bioconductor 包 Limma (Smyth, 2005) 来比较两组。 MVP 调用可以在 M 或 beta 值上执行。庄等人。 (2012) 建议将 M 值用于小样本量研究（每个表型 <10 个样本）。由于 DNA 甲基化与多达 1000 个碱基高度相关（Li 等人，2010 年），因此单向 MVP 可以按照生物学上更相关的 DMR 进行分组（Jaffe 等人，2012 年）。 ChAMP 结合了一种新的 DMR 狩猎算法“探针套索”，该算法考虑了注释的基因组特征及其相应的局部探针密度和甲基化（Li 等人，2010）。探针套索（Butcher 未出版）根据探针映射到的基因组特征改变给定区域中最近邻探针间距的要求。然后，适当大小的套索以每个重要的 CpG 探针为中心，如果套索捕获了用户指定的额外最小数量的重要探针，则保留该套索。

CNA分析

最后，ChAMP 集成了一种分析 450k 强度值的方法，以识别给定数据集中的 CNA（Feber 等人，2013 年）。这具有对同一样本进行“二合一”分析的优势，这在癌症的背景下尤为重要，除非使用完全相同的样本，否则肿瘤异质性是主要的混杂因素。得到的 CNA 分析已与 SNP 数据进行了比较，并显示产生了可比较的结果（Feber 等人，2013 年）。

讨论

使用 450k 平台作为系统和面向疾病项目的一部分的研究人员的瓶颈是需要集成的分析管道。通过开发 ChAMP 并将其公之于众来满足这一需求。 ChAMP 整合了已经发布的新工具，并补充了现有的 450k 分析管道，如 Illumina 甲基化分析仪（Wang 等人，2012）、RnBeads（Assenov 等人，2013 年）和 wateRmelon（Pidsley 等人，2013 年），为用户提供了一个为他们的分析选择。 ChAMP 的优势在于，除了标准功能之外，它还提供了三种额外的方法来分析批次效应、DMR 调用和 CNA 检测。 ChAMP 已经在具有 8 GB 内存的个人机器上对包含多达 200 个样本的研究进行了测试。对于更大的表观基因组范围关联研究，管道需要更多内存，并且按照小插图中描述的步骤运行它可以打破时间要求。

参考文献

Assenov Y, et al. Comprehension Analysis of DNA Methylation Data with RnBeads, 2013 , http://rnbeads.mpi-inf.mpg.de

Bibikova M, et al. High density DNA methylation array with single CpG site resolution, Genomics, 2011, vol. 98 (pg. 288-295)

Algorithm	Stringency (# probes)	# DMRs	# Probes	Total DMR sequence [Mb]	DMR sequence overlap [%]	Total DMR core sequence [Mb]	DMR core sequence overlap [%]
Probe Lasso	3	7028	38,524	10.0		4.8
Window.250		7416	41,028	3.3	15.0	2.2	19.4
Window.750		13,458	92,470	16.7	43.5	10.2	46.2
Window.1000		16,178	148,323	52.3	81.3	28.2	82.9

Probe Lasso	5	1226	11,556	2.6		1.5
Window.250		1428	11,335	0.5	5.3	0.4	6.7
Window.750		4425	39,455	4.7	22.9	3.2	25.7
Window.2000		7385	84,610	22.2	67.9	13.8	70.2

Probe Lasso	7	395	5035	0.9		0.6
Window.250		400	4068	0.1	3.7	0.1	4.5
Window.750		1690	18,748	1.7	17.2	1.2	18.4
Window.2000		3840	52,443	11.0	58.6	7.4	61.4

生物信息学/ChAMP

ChAMP

ChAMP：450k 芯片分析甲基化套件

摘要

引言

描述

type2偏差的调整

批量效果

MVP 和 DMR 调用

CNA分析

讨论

参考文献

Probe Lasso：一种寻找450K DNA 甲基化数据差异甲基化区域的新方法

摘要

引言

材料和方法

预处理和甲基化可变位置 (MVP) 调用

依赖关系

探测lasso原理

探针套索工作流程

探测lasso和滑动固定窗口参数

结果和讨论

数据集

甲基化可变位置和 DMR 调用

DMR 覆盖范围

DMR 的生物学相关性

结论

参考文献

ChAMP：更新了 Illumina BeadChip 的甲基化分析流程

摘要

引言

描述

结论

参考文献