ChAMP

ChAMP流程圖

ChAMP（The Chip Analysis Methylation Pipeline）是一個甲基化分析流程。

用法參考：ChAMP - 生物信息軟件參考文檔 (gitbook.com)

ChAMP：450k 芯片分析甲基化套件

Morris TJ, Butcher LM, Teschendorff AE, Chakravarthy AR, Wojdacz TK, Beck S (2014). 「ChAMP: 450k Chip Analysis Methylation Pipeline.」 Bioinformatics, 30(3), 428-430. doi: 10.1093/bioinformatics/btt684.

摘要

Illumina Infinium HumanMethylation450 BeadChip 是用於高通量 DNA 甲基化分析的新平台。最近發表了幾種標準化和處理這些數據的方法。在這裡，展示了一個集成的分析工具，提供了最流行的標準化方法的選擇，同時還引入了用於調用差異甲基化區域和檢測拷貝數變異的新方法。

引言

DNA甲基化是研究最多的表觀遺傳修飾。 DNA 甲基化模式的變化與許多疾病的發展有關，並被定義為癌症的主要標誌（Feinberg，2007）。近年來，全基因組 DNA 甲基化檢測的技術發展迅速，存在多種選擇（Bock，2012）。儘管亞硫酸氫鹽轉化結合二代測序是最全面的方法，但目前僅適用於小樣本量，並且應用於大規模研究仍然具有挑戰性。 Infinium HumanMethylation450 BeadChip (www.illumina.com) 為這個快速發展的領域提供了在通量、覆蓋範圍和成本方面的有吸引力的平衡。它擴展了之前的 27k 陣列，提供了對 >480 000 個 CpG 位點的評估，涵蓋了人類基因組的關鍵特徵，包括 CpG 島、海岸和貨架以及啟動子、基因體、基因間和印記區域（Bibikova 等， 2011）。根據 Pubmed 和 GEO 的提交，450k 陣列已成為表觀基因組關聯研究的首選平台（Rakyan 等，2011）。

這項新技術的挑戰在於分析。 450k 分析工具應包括幾個重要步驟：標準化、批量效應分析、單核苷酸多態性 (SNP) 標記、拷貝數畸變 (CNA) 檢測和甲基化可變位置 (MVP) 分割為生物學相關的 DMR。歸一化尤其重要，因為 450k 平台結合了兩種不同的檢測，Infinium I 和 Infinium II（Bibikova 等人，2011 年；Sandoval 等人，2011 年）。現在有許多標準化方法可用，它們以略有不同的方式處理這個問題（Marabita 等，2013）。按照發展的時間順序，它們是基於峰值的校正 (PBC)（Dedeurwaerder 等人，2011 年）、SQN（Touleimat 和 Tost，2012 年）、陣列歸一化內的子集分位數（SWAN）（Maksimovic 等人，2012 年）和Beta 混合物分位數歸一化 (BMIQ)（Teschendorff 等人，2013 年）。

描述

芯片分析甲基化工具 (ChAMP) 包是一種流水線，它集成了當前可用的 450k 分析方法並提供了自己的新穎功能。它是在 R 中實現的，可以在任何具有現有 R（版本 >3.0）和 Bioconductor 安裝的平台上運行。 ChAMP 將原始 IDAT 文件作為輸入，使用 minfi 提供的數據導入、質量控制和標準化選項（Hansen 和 Ayree，2011 年）。默認情況下，對至少一個樣品中檢測 P > 0.01 的探針的原始數據進行過濾。如果原始數據不可用，用戶可以上傳 M-、β- 或原始強度值的矩陣。用戶可以決定過濾掉單個探針或探針組，例如 X 和 Y 染色體。根據用戶指定的次要等位基因頻率在 1000 基因組項目（1000 基因組項目聯盟，2012）定義的四個群體之一中過濾 SNP 的選項也可用。這可以防止由於下游統計分析中的遺傳變異導致的偏差，旨在識別差異甲基化的 CpG。批量效應分析是對原始數據進行的，如果用戶提供可用於特定研究的額外協變量信息（即年齡、性別等），則可以更徹底。在預處理之後，後續步驟包括歸一化、DMR 調用和 CNA 檢測，如圖 1 所示。

ChAMP 包括用於調整 2 型偏差（正方形）的預處理和已發布方法以及用於批次效應評估、DMR 校正和 CNA 分析的新方法（圓圈）

type2偏差的調整

在運行基本質量控制指標後，建議執行陣列內歸一化以調整 Infinium 2 型探針設計引入的偏差數據。 ChAMP 提供了四種最近專門為 450k 數據開發的方法供您選擇。默認情況下，ChAMP 實施 BMIQ（Teschendorff 等人，2013 年），這是由 Marabita 等人確定的。（2013），作為一種有效的方法。用戶還可以選擇 SWAN (Maksimovic et al., 2012)、PBC (Dedeurwaerder et al., 2011) 或無歸一化。

批量效果

為了評估與生物變異相關的批次效應的大小，將奇異值分解應用於數據矩陣以獲得變異的最重要組成部分（Teschendorff 等，2011）。渲染主成分和技術/生物因素之間關聯強度的熱圖使用戶能夠輕鬆地可視化是否存在批次效應。如果存在，ChAMP 中有一個選項可以使用 ComBat 來糾正這些影響（Johnson 等，2007）。

MVP 和 DMR 調用

對於 MVP 調用，ChAMP 使用 Bioconductor 包 Limma (Smyth, 2005) 來比較兩組。 MVP 調用可以在 M 或 beta 值上執行。莊等人。 (2012) 建議將 M 值用於小樣本量研究（每個表型 <10 個樣本）。由於 DNA 甲基化與多達 1000 個鹼基高度相關（Li 等人，2010 年），因此單向 MVP 可以按照生物學上更相關的 DMR 進行分組（Jaffe 等人，2012 年）。 ChAMP 結合了一種新的 DMR 狩獵算法「探針套索」，該算法考慮了注釋的基因組特徵及其相應的局部探針密度和甲基化（Li 等人，2010）。探針套索（Butcher 未出版）根據探針映射到的基因組特徵改變給定區域中最近鄰探針間距的要求。然後，適當大小的套索以每個重要的 CpG 探針為中心，如果套索捕獲了用戶指定的額外最小數量的重要探針，則保留該套索。

CNA分析

最後，ChAMP 集成了一種分析 450k 強度值的方法，以識別給定數據集中的 CNA（Feber 等人，2013 年）。這具有對同一樣本進行「二合一」分析的優勢，這在癌症的背景下尤為重要，除非使用完全相同的樣本，否則腫瘤異質性是主要的混雜因素。得到的 CNA 分析已與 SNP 數據進行了比較，並顯示產生了可比較的結果（Feber 等人，2013 年）。

討論

使用 450k 平台作為系統和面向疾病項目的一部分的研究人員的瓶頸是需要集成的分析管道。通過開發 ChAMP 並將其公之於眾來滿足這一需求。 ChAMP 整合了已經發布的新工具，並補充了現有的 450k 分析管道，如 Illumina 甲基化分析儀（Wang 等人，2012）、RnBeads（Assenov 等人，2013 年）和 wateRmelon（Pidsley 等人，2013 年），為用戶提供了一個為他們的分析選擇。 ChAMP 的優勢在於，除了標準功能之外，它還提供了三種額外的方法來分析批次效應、DMR 調用和 CNA 檢測。 ChAMP 已經在具有 8 GB 內存的個人機器上對包含多達 200 個樣本的研究進行了測試。對於更大的表觀基因組範圍關聯研究，管道需要更多內存，並且按照小插圖中描述的步驟運行它可以打破時間要求。

參考文獻

Assenov Y, et al. Comprehension Analysis of DNA Methylation Data with RnBeads, 2013 , http://rnbeads.mpi-inf.mpg.de

Bibikova M, et al. High density DNA methylation array with single CpG site resolution, Genomics, 2011, vol. 98 (pg. 288-295)

Algorithm	Stringency (# probes)	# DMRs	# Probes	Total DMR sequence [Mb]	DMR sequence overlap [%]	Total DMR core sequence [Mb]	DMR core sequence overlap [%]
Probe Lasso	3	7028	38,524	10.0		4.8
Window.250		7416	41,028	3.3	15.0	2.2	19.4
Window.750		13,458	92,470	16.7	43.5	10.2	46.2
Window.1000		16,178	148,323	52.3	81.3	28.2	82.9

Probe Lasso	5	1226	11,556	2.6		1.5
Window.250		1428	11,335	0.5	5.3	0.4	6.7
Window.750		4425	39,455	4.7	22.9	3.2	25.7
Window.2000		7385	84,610	22.2	67.9	13.8	70.2

Probe Lasso	7	395	5035	0.9		0.6
Window.250		400	4068	0.1	3.7	0.1	4.5
Window.750		1690	18,748	1.7	17.2	1.2	18.4
Window.2000		3840	52,443	11.0	58.6	7.4	61.4

生物信息學/ChAMP

ChAMP

ChAMP：450k 芯片分析甲基化套件

摘要

引言

描述

type2偏差的調整

批量效果

MVP 和 DMR 調用

CNA分析

討論

參考文獻

Probe Lasso：一種尋找450K DNA 甲基化數據差異甲基化區域的新方法

摘要

引言

材料和方法

預處理和甲基化可變位置 (MVP) 調用

依賴關係

探測lasso原理

探針套索工作流程

探測lasso和滑動固定窗口參數

結果和討論

數據集

甲基化可變位置和 DMR 調用

DMR 覆蓋範圍

DMR 的生物學相關性

結論

參考文獻

ChAMP：更新了 Illumina BeadChip 的甲基化分析流程

摘要

引言

描述

結論

參考文獻