生物信息學/ChAMP
ChAMP
編輯ChAMP(The Chip Analysis Methylation Pipeline)是一個甲基化分析流程。
ChAMP:450k 晶片分析甲基化套件
編輯Morris TJ, Butcher LM, Teschendorff AE, Chakravarthy AR, Wojdacz TK, Beck S (2014). 「ChAMP: 450k Chip Analysis Methylation Pipeline.」 Bioinformatics, 30(3), 428-430. doi: 10.1093/bioinformatics/btt684.
摘要
編輯Illumina Infinium HumanMethylation450 BeadChip 是用於高通量 DNA 甲基化分析的新平台。 最近發表了幾種標準化和處理這些數據的方法。 在這裏,展示了一個集成的分析工具,提供了最流行的標準化方法的選擇,同時還引入了用於調用差異甲基化區域和檢測拷貝數變異的新方法。
引言
編輯DNA甲基化是研究最多的表觀遺傳修飾。 DNA 甲基化模式的變化與許多疾病的發展有關,並被定義為癌症的主要標誌(Feinberg,2007)。近年來,全基因組 DNA 甲基化檢測的技術發展迅速,存在多種選擇(Bock,2012)。儘管亞硫酸氫鹽轉化結合二代測序是最全面的方法,但目前僅適用於小樣本量,並且應用於大規模研究仍然具有挑戰性。 Infinium HumanMethylation450 BeadChip (www.illumina.com) 為這個快速發展的領域提供了在通量、覆蓋範圍和成本方面的有吸引力的平衡。它擴展了之前的 27k 陣列,提供了對 >480 000 個 CpG 位點的評估,涵蓋了人類基因組的關鍵特徵,包括 CpG 島、海岸和貨架以及啟動子、基因體、基因間和印記區域(Bibikova 等, 2011)。根據 Pubmed 和 GEO 的提交,450k 陣列已成為表觀基因組關聯研究的首選平台(Rakyan 等,2011)。
這項新技術的挑戰在於分析。 450k 分析工具應包括幾個重要步驟:標準化、批量效應分析、單核苷酸多態性 (SNP) 標記、拷貝數畸變 (CNA) 檢測和甲基化可變位置 (MVP) 分割為生物學相關的 DMR。歸一化尤其重要,因為 450k 平台結合了兩種不同的檢測,Infinium I 和 Infinium II(Bibikova 等人,2011 年;Sandoval 等人,2011 年)。現在有許多標準化方法可用,它們以略有不同的方式處理這個問題(Marabita 等,2013)。按照發展的時間順序,它們是基於峰值的校正 (PBC)(Dedeurwaerder 等人,2011 年)、SQN(Touleimat 和 Tost,2012 年)、陣列歸一化內的子集分位數(SWAN)(Maksimovic 等人,2012 年)和Beta 混合物分位數歸一化 (BMIQ)(Teschendorff 等人,2013 年)。
描述
編輯晶片分析甲基化工具 (ChAMP) 包是一種流水線,它集成了當前可用的 450k 分析方法並提供了自己的新穎功能。它是在 R 中實現的,可以在任何具有現有 R(版本 >3.0)和 Bioconductor 安裝的平台上運行。 ChAMP 將原始 IDAT 文件作為輸入,使用 minfi 提供的數據導入、質量控制和標準化選項(Hansen 和 Ayree,2011 年)。默認情況下,對至少一個樣品中檢測 P > 0.01 的探針的原始數據進行過濾。如果原始數據不可用,用戶可以上傳 M-、β- 或原始強度值的矩陣。用戶可以決定過濾掉單個探針或探針組,例如 X 和 Y 染色體。根據用戶指定的次要等位基因頻率在 1000 基因組項目(1000 基因組項目聯盟,2012)定義的四個群體之一中過濾 SNP 的選項也可用。這可以防止由於下游統計分析中的遺傳變異導致的偏差,旨在識別差異甲基化的 CpG。批量效應分析是對原始數據進行的,如果用戶提供可用於特定研究的額外協變量信息(即年齡、性別等),則可以更徹底。在預處理之後,後續步驟包括歸一化、DMR 調用和 CNA 檢測,如圖 1 所示。
ChAMP 包括用於調整 2 型偏差(正方形)的預處理和已發佈方法以及用於批次效應評估、DMR 校正和 CNA 分析的新方法(圓圈)
type2偏差的調整
編輯在運行基本質量控制指標後,建議執行陣列內歸一化以調整 Infinium 2 型探針設計引入的偏差數據。 ChAMP 提供了四種最近專門為 450k 數據開發的方法供您選擇。默認情況下,ChAMP 實施 BMIQ(Teschendorff 等人,2013 年),這是由 Marabita 等人確定的。 (2013),作為一種有效的方法。用戶還可以選擇 SWAN (Maksimovic et al., 2012)、PBC (Dedeurwaerder et al., 2011) 或無歸一化。
批量效果
編輯為了評估與生物變異相關的批次效應的大小,將奇異值分解應用於數據矩陣以獲得變異的最重要組成部分(Teschendorff 等,2011)。渲染主成分和技術/生物因素之間關聯強度的熱圖使用戶能夠輕鬆地可視化是否存在批次效應。如果存在,ChAMP 中有一個選項可以使用 ComBat 來糾正這些影響(Johnson 等,2007)。
MVP 和 DMR 調用
編輯對於 MVP 調用,ChAMP 使用 Bioconductor 包 Limma (Smyth, 2005) 來比較兩組。 MVP 調用可以在 M 或 beta 值上執行。莊等人。 (2012) 建議將 M 值用於小樣本量研究(每個表型 <10 個樣本)。由於 DNA 甲基化與多達 1000 個鹼基高度相關(Li 等人,2010 年),因此單向 MVP 可以按照生物學上更相關的 DMR 進行分組(Jaffe 等人,2012 年)。 ChAMP 結合了一種新的 DMR 狩獵算法「探針套索」,該算法考慮了註釋的基因組特徵及其相應的局部探針密度和甲基化(Li 等人,2010)。探針套索(Butcher 未出版)根據探針映射到的基因組特徵改變給定區域中最近鄰探針間距的要求。然後,適當大小的套索以每個重要的 CpG 探針為中心,如果套索捕獲了用戶指定的額外最小數量的重要探針,則保留該套索。
CNA分析
編輯最後,ChAMP 集成了一種分析 450k 強度值的方法,以識別給定數據集中的 CNA(Feber 等人,2013 年)。這具有對同一樣本進行「二合一」分析的優勢,這在癌症的背景下尤為重要,除非使用完全相同的樣本,否則腫瘤異質性是主要的混雜因素。得到的 CNA 分析已與 SNP 數據進行了比較,並顯示產生了可比較的結果(Feber 等人,2013 年)。
討論
編輯使用 450k 平台作為系統和面向疾病項目的一部分的研究人員的瓶頸是需要集成的分析管道。通過開發 ChAMP 並將其公之於眾來滿足這一需求。 ChAMP 整合了已經發佈的新工具,並補充了現有的 450k 分析管道,如 Illumina 甲基化分析儀(Wang 等人,2012)、RnBeads(Assenov 等人,2013 年)和 wateRmelon(Pidsley 等人,2013 年),為用戶提供了一個為他們的分析選擇。 ChAMP 的優勢在於,除了標準功能之外,它還提供了三種額外的方法來分析批次效應、DMR 調用和 CNA 檢測。 ChAMP 已經在具有 8 GB 內存的個人機器上對包含多達 200 個樣本的研究進行了測試。對於更大的表觀基因組範圍關聯研究,管道需要更多內存,並且按照小插圖中描述的步驟運行它可以打破時間要求。
參考文獻
編輯Assenov Y, et al. Comprehension Analysis of DNA Methylation Data with RnBeads, 2013 , http://rnbeads.mpi-inf.mpg.de
Bibikova M, et al. High density DNA methylation array with single CpG site resolution, Genomics, 2011, vol. 98 (pg. 288-295)
Google Scholar Crossref PubMed
Bock C. Analysing and interpreting DNA methylation data, Nat. Rev. Genet., 2012, vol. 13 (pg. 705-719)
Google Scholar Crossref PubMed
Dedeurwaerder S, et al. Evaluation of the infinium methylation 450k technology, Epigenomics, 2011, vol. 3 (pg. 771-784)
Google Scholar Crossref PubMed
Feber A, et al. CNA profiling using high density DNA methylation arrays, Genome Biol., 2013 in process
Feinberg A. Phenotypic plasticity and the epigenetics of human disease, Nature, 2007, vol. 447 (pg. 433-440)
Google Scholar Crossref PubMed
Hansen K, Ayree M. minfi: Analyze Illumina's 450k methylation arrays. R package version 1.8.3, 2011
Jaffe A, et al. Bump hunting to identify differentially methylated regions in epigenetic epidemiology studies, Int. J. Epidemiol., 2012, vol. 41 (pg. 200-209)
Google Scholar Crossref PubMed
Johnson W, et al. Adjusting batch effects in microarray expression data using empirical bayes methods, Biostatistics, 2007, vol. 8 (pg. 118-127)
Google Scholar Crossref PubMed
Li Y, et al. The DNA methylome of human peripheral blood mononuclear cells, PLoS Biol., 2010, vol. 8 pg. e1000533
Google Scholar Crossref PubMed
Maksimovic J, et al. Swan: subset-quantile within array normalization for illumina infinium humanmethylation450 beadchips, Genome Biol., 2012, vol. 13 pg. R44
Google Scholar Crossref PubMed
Marabita F, et al. An evaluation of analysis pipelines for DNA methylation profiling using the illumina humanmethylation450 beadchip platform, Epigenetics, 2013, vol. 8 (pg. 333-346)
Google Scholar Crossref PubMed
Pidsley R, et al. A data-driven approach to preprocessing illumina 450k methylation array data, BMC Genomics, 2013, vol. 14 pg. 293
Google Scholar Crossref PubMed
Rakyan V, et al. Epigenome-wide association studies for common human diseases, Nat. Rev. Genet., 2011, vol. 12 (pg. 529-541)
Google Scholar Crossref PubMed
Sandoval J, et al. Validation of a DNA methylation microarray for 450,000 CPG sites in the human genome, Epigenetics, 2011, vol. 6 (pg. 692-702)
Google Scholar Crossref PubMed
Smyth GK. Limma: linear models for microarray data, Bioinformatics and Computational Biology Solutions Using R and Bioconductor, 2005Springer, NY(pg. 397-420)
Teschendorff A, et al. Independent surrogate variable analysis to deconvolve confounding factors in large-scale microarray profiling studies, Bioinformatics, 2011, vol. 27 (pg. 1496-1505)
Google Scholar Crossref PubMed
Teschendorff A, et al. A beta-mixture quantile normalization method for correcting probe design bias in illumina infinium 450k DNA methylation data, Bioinformatics, 2013, vol. 29 (pg. 189-196)
Google Scholar Crossref PubMed
The 1000 Genomes Project ConsortiumAn integrated map of genetic variation from 1,092 human genomes, Nature, 2012, vol. 491 (pg. 56-65)
Touleimat N, Tost J. Complete pipeline for infinium((r)) human methylation 450k beadchip data processing using subset quantile normalization for accurate DNA methylation estimation, Epigenomics, 2012, vol. 4 (pg. 325-341)
Google Scholar Crossref PubMed
Wang D, et al. IMA: an R package for high-throughput analysis of illumina’s 450k infinium methylation data, Bioinformatics, 2012, vol. 28 (pg. 729-730)
Google Scholar Crossref PubMed
Zhuang J, et al. A comparison of feature selection and classification methods in DNA methylation studies using the illumina infinium platform, BMC Bioinformatics, 2012, vol. 13 pg. 59
Probe Lasso:一種尋找450K DNA 甲基化數據差異甲基化區域的新方法
編輯Butcher LM, Beck S (2015). 「Probe Lasso: A novel method to rope in differentially methylated regions with 450K DNA methylation data.」 Methods, 72, 21-28. doi: 10.1016%2Fj.ymeth.2014.10.036.
摘要
編輯在過去的 10 年中,搜索基因組中 DNA 甲基化變化的速度和解像度有了不可估量的提高,而 Illumina 450K BeadChip 的出現使全表觀基因組關聯研究 (pigenome-wide association studies,EWAS) 成為現實。然而,所得數據集的格式很方便,可以輕鬆對齊基因和遺傳特徵的重要命中;將重要命中解析為謹慎的差異甲基化區域 (differentially methylated regions,DMR) 的方法仍然是實施的挑戰。在本文中,介紹了一種新型 DMR 調用程序 Probe Lasso 的詳細信息:一種基於靈活窗口的方法,它收集相鄰的重要信號以定義清晰的 DMR 邊界,以便進行後續的深入分析。該方法在 R 包 ChAMP(Morris 等,2014)中實現,並根據用戶調整的探針過濾級別(例如,包含性染色體、多態性)和探針套索大小分佈返回 DMR 集。使用來自 TCGA 的結腸癌和健康結腸樣本的子樣本,表明 Probe Lasso 將 DMR 調用從探針密集區域轉移,並調用了從數十個鹼基到數十個的 DMR 大小範圍- 千鹼基規模。此外,使用 TCGA 數據,表明 Probe Lasso 利用了來自陣列的更多信息,並突出了使用基本固定窗口方法無法發現的低甲基化轉錄因子結合基序的潛在作用。
關鍵詞:差異甲基化區域 DNA 甲基化 表觀遺傳學 EWAS Illumina 450K BeadChip
引言
編輯DNA甲基化是正常哺乳動物發育必不可少的表觀遺傳修飾。它是指在胞嘧啶核苷酸 (C) 的 5' 位置添加甲基以形成 5-甲基胞嘧啶 (mC),並且在哺乳動物細胞中主要發生在 CpG 二核苷酸處。 CpG 二核苷酸在哺乳動物基因組中的代表性不足,但給定細胞群中的這些基因座中的大多數(70-80%)表現出高水平的甲基化(mClocus:>85%)。保持組成型未甲基化的 CpG 傾向於聚集成稱為 CpG 島 (CGI) 的富含 CpG 的區域。奇怪的是,多能幹細胞在非 CG (CpH) 二核苷酸處含有額外 33% 的 mC;這種表觀遺傳標記不太穩定,因此,這些基因座通常以部分甲基化的形式存在(mClocus:25-50%)。儘管理論上每個甲基化胞嘧啶都有可能去甲基化,但只有不到 22% 的常染色體 CpG 受到動態調節 [2]。儘管如此,DNA 甲基化變異的普遍模式留下了細胞特異性印記,這與其他表觀遺傳改變如組蛋白修飾和非編碼 RNA 一起,促成了一系列精確協調的機制,這些機制在暫時和空間上控制基因表達。
增殖細胞中 DNA 甲基化的正確獲取由 DNA 甲基轉移酶 (DNMT) 控制,DNMT 是三種催化活性酶的家族,包括維持 (DNMT1) 和從頭 (DNMT3a 和 DNMT3b) 功能。小鼠中這些基因的擾動會導致一系列有害的表型,這突出了 DNA 甲基化在正常發育中不可或缺的作用。這些表型包括全基因組部分甲基化缺失、發育延遲、錯誤的生殖系印記、不育和胚胎致死率。
鑑於 DNA 甲基化的明顯重要性,目前正在共同努力以了解更細微的 DNA 甲基化差異對正常發育和疾病的影響。由於在過去 5 年中出現了許多高信息含量的甲基化技術(在 [3] 中進行了回顧),的理解逐漸成為焦點。這些包括全基因組亞硫酸氫鹽測序(WGBS;[4]、[5])、甲基化免疫沉澱測序(MeDIP-seq;[6])、減少代表性亞硫酸氫鹽測序(RRBS;[7])和 Illumina Infinium Human Methylation 450K BeadChip(此處稱為「450K BeadChip」;[8])。所有這些平台都能夠生成全基因組或全基因組甲基化圖譜(「甲基化組」)並提供高信息內容,儘管具有不同的焦點 [9]。例如,儘管 WGBS 不適合研究大型隊列(由於需要足夠深度覆蓋每個胞嘧啶所需的讀數數量),但它可以以單核苷酸解像度解析整個甲基化組;另一方面,450K BeadChip 僅測定約。 1.8% 的 CpG,但非常適合研究大型隊列——這是統計功效的關鍵要求; MeDIP 和 RRBS 介於兩者之間。除 MeDIP-seq 外,上述所有技術均使用亞硫酸氫鹽轉化的 DNA 以單鹼基解像度解析 mC;相比之下,MeDIP 使用抗體來富集基因組的甲基化部分,並提供基於區域的「共識」甲基化水平,解像度與序列插入大小相一致 [10]。
由於基於序列的方法通常提供廣泛且不間斷的甲基化覆蓋,因此這些技術負責識別大量區分細胞、組織和疾病特異性表型的差異甲基化區域 (DMR),這並不奇怪。 DMR 是離散的基因組序列,其在多個 CpG(和/或非 CpG)中具有獨特的甲基化特徵,能夠將一種表型與另一種表型區分開來。它們的識別和效用對臨床應用具有深遠的影響,因為它們最終將基因組的規模縮小到少數幾個區域;一旦 DMR 得到驗證和複製,它將為時間、成本和工作效率高的分析鋪平道路,為後續的功能研究提供信息並提供診斷工具。
儘管大多數 DMR 是使用基於測序的方法鑑定的,但大多數甲基化組是使用 450K BeadChip 生成的;例如,最新版本的 MARMAL-AID 數據庫 [11] 包含來自近 200 種不同組織和近 100 種不同疾病的 9000 多個樣本的 450K 數據。但出於技術製造原因,必須限制 450K BeadChip 上 CpG 的覆蓋範圍。因此,可能由於歷史原因,450K BeadChip 上的 CpG 分佈偏向於 CGI 和基因。此外,並不總是涵蓋連續的 CpG。因此,這開啟了在 450K BeadChip 數據集上實現 DMR 調用的綜合算法的挑戰。一種簡單的方法是計算從固定大小的滑動窗口發出的重要信號。如果特定大小的窗口(或連續窗口)捕獲指定數量的顯着相關探針,則可以通過這種方式定義 DMR。然而,如上所述,由於 CpG 的分佈和將 DMR 調用限制在探測最多的區域的風險,這是有爭議的。公共領域中有許多 DMR 調用方法適用於 450K BeadChip。其中包括「Bump Hunting」[12]、「Block Find」[13]、「AClust」[14] 和「DMRcate」[15]。
在這裏,介紹了另一種 DMR 調用方法,Probe Lasso。探針套索利用基於探針密度的靈活窗口(「探針套索」)來收集相鄰的重要信號以定義清晰的 DMR 邊界。開發該算法的主要動機是將後續分析從位於啟動子/CGI 中的探針/區域重新定向,陣列傾向於並利用來自假定重要但在很大程度上被忽略的基因間區域的信息。為了說明這一點,針對固定窗口方法對 Probe Lasso 進行了基準測試。 Probe Lasso 與另一種 DMR 調用方法「Comb-p」[16] 有相似之處,儘管存在顯着差異;特別是,Comb-p 使用自相關數據首先校正單個探針 p 值,然後根據校正 p 值的峰值定義 DMR。相比之下,Probe Lasso 從可以根據探針的基因組/表觀基因組註釋擴展的區域中的探針收集相鄰的重要信號,然後使用自相關信息組合 DMR 內探針的 p 值。
材料和方法
編輯預處理和甲基化可變位置 (MVP) 調用
編輯Probe Lasso 在 Bioconductor 包 ChAMP [1] 中實現,並依賴於使用該包創建的一系列對象。下面簡要介紹了使用 ChAMP 的典型工作流程。使用 champ.load 函數加載原始數據(.idat 文件)以派生一個列表對象,其中包含樣品表 ('pd') 和檢測中指定的樣品的探針的甲基化水平 ('beta') 和其他內容每個探針的 p 值 ('detP')。刪除調用率(即 detP <0.01)低於 98% 的樣本,然後刪除不能提供所有樣本完整信息的探針。 Beta 值使用具有 champ.norm 函數的各種公開可用程序之一進行陣列間標準化,並使用 champ.svd 進行奇異變量分解 (SVD) 分析以識別潛在的混雜因素。然後使用 champ.mvp 確定 MVP 進行適當的對比,它實現了 limma 包 [17],結果對象用於使用 champ.lasso 的 DMR 調用。
依賴關係
編輯要有效地調用 DMR,champ.lasso 需要每個探針都具有遺傳和表觀遺傳特徵註釋和多態性數據。 遺傳和表觀遺傳特徵註釋保存在 Bioconductor 包 IlluminaHumanMethylation450kmanifest 中,包含染色體、映射位置、附近基因和/或 CGI 等信息; 多態性數據保存在 Bioconductor 包 Illumina450ProbeVariants.db 中,其中包含探針內、目標基因座 10 bp 內或目標基因座上四個不同祖先組(非洲、美洲、亞洲和歐洲)的變體的等位基因頻率信息,來自 1000 基因組計劃 [18] 數據。
探測lasso原理
編輯圖 1A 說明 450K BeadChip 上的探針間距在基因特徵方面不均勻:轉錄起始位點 (「TSS200」) 200 bp 內的探針間隔最密,而 3' UTR 和基因間區域 (「IGRs」) 中的探針間距最大 」) 的間距最小。 不出所料,鑑於 CGI 及其衍生物 [8] 的定義,圖 1B 顯示探針密度隨 CGI 的探針圖越遠(CGI → 海岸 → 大陸架 → 公海)而降低。 此外,特定基因特徵的探針間距與其 CGI 關係(此處稱為「遺傳/表觀遺傳特徵」)共變,這使探針間距更加多樣化(圖 1C)。 綜上所述,這些數字表明在 450K BeadChip 上收集相鄰的重要信號需要一個動態調用框架。
圖 1. Illumina 450K BeadChip 上的探針間距。 (A) 探針以基因為中心,靠近轉錄起始位點 (TSS) 的探針間隔最密。 (B) 探針與 CpG 島 (CGI) 的距離越遠,探針間距就越稀疏。 (C) 結合遺傳和表觀遺傳註釋信息揭示了不同範圍的探針間距。
探針套索工作流程
編輯為了解決探頭間距不均勻的問題,Probe Lasso 生成了針對局部特徵內容量身定製的動態靈活的窗口(「套索」)。圖 2 總結了 Probe Lasso 如何調用 DMR。就像真實的東西一樣,探針套索可以被設想為有一個中心和一個半徑;一旦導出,探針套索就會圍繞探針「拋出」,其半徑向上游和下游延伸,以目標 CpG 本身為中心。 (由於非 CG 基因座在 450K BeadChip 上的分佈很少,因此無法促進使用非 CG 基因座進行有意義的 DMR 調用。)重要的是,探針套索推導完全是數據集和用戶特定的。例如,可以先驗過濾數據集以用於映射到性染色體的探針(filterXY);還可以過濾數據集以包含/排除可能受所選群體 (popPol) 中特定次要等位基因頻率 (mafPol.lower, mafPol.upper) 多態性影響的探針;此外,只有具有關聯統計信息的探針才會通知探針間距計算以導出探針套索。
圖 2. 說明 Probe Lasso 工作流程的示意圖。 在為 28 個遺傳/表觀遺傳特徵中的每一個計算探針間距分佈後,基於用戶指定的最小/最大套索大小和套索半徑設置分位數。 這個分位數產生了 28 個動態窗口大小('probe-lassos'),這些窗口大小被拋出到每個顯着相關的探針周圍。 如果這些套索捕獲了用戶指定數量的重要探針,則保留該探針的套索邊界。 然後將小於用戶指定距離的重疊和相鄰套索邊界合併以定義 DMR 邊界。 然後將數據集中的所有探針分箱到 DMR 中,並將它們的 p 值組合為 DMR,由探針甲基化值的潛在相關結構加權。
在探針過濾之後,Probe Lasso 計算數據集中每個探針的探針間距; 這些數據被歸入 28 個遺傳/表觀遺傳類別之一(即 7 個基因特徵 × 4 個 CGI 關係)並轉換為分位數分佈。 接下來,根據兩個用戶指定的參數 lassoStyle 和 lassoRadius 設置意外事件。 如果 lassoStyle = max,則探針套索大小最多為 2 × lassoRadius bp; 如果 lassoStyle = min,則探針套索將至少為 2 × lassoRadius bp。 由於每個遺傳/表觀遺傳類別都有唯一的探針間距,因此 Probe Lasso 可識別符合用戶指定的最大(或最小)套索半徑的遺傳/表觀遺傳類別,並推導出它出現的分位數。 然後將衍生的分位數應用於探針間距的每個遺傳/表觀遺傳分佈,以創建根據遺傳/表觀遺傳特徵而變化的探針套索(見圖 3)。
圖 3. 每個基因/CGI 特徵的探針間距的示例分位數分佈。 黑色水平和垂直虛線表示選擇 2000 bp 的最大套索大小所產生的分位數(第 43 位)。
根據探針映射到的遺傳/表觀遺傳特徵,在每個探針周圍拋出一個大小合適的探針套索,以目標基因座為中心。探針套索計算探針套索範圍內捕獲的重要探針的數量,如果該數量大於或等於用戶指定的閾值 minSigProbesLasso,則選擇一個探針。 Champ.lasso 生成探針套索邊界圖,以便重疊套索和相鄰套索在它們之間的距離小於用戶指定的閾值 minDmrSep 時合併。當探測套索邊界停止合併時調用 DMR。 DMR 坐標由 DMR 中探針的探針-套索邊界的最小和最大基因組坐標定義。還輸出第二組坐標,稱為「DMR 核心」,由 DMR 內探針的最小和最大基因組坐標定義。小於用戶指定參數 minDMRsize 的 DMR 從後續分析中過濾掉。
接下來,估計 DMR 本身的 p 值。由於相鄰探針的 DNA 甲基化水平可能具有顯着相關性 [19],Fisher 組合 p 值的方法是不合適的。相反,Probe Lasso 使用 Stouffer 的方法 [20] 為單個 p 值分配權重,這些 p 值基於測量的 beta 值的潛在相關結構,然後再組合它們。為此,Probe Lasso 恢復了 DMR 中捕獲的數據集中探針的所有歸一化 beta 值(來自 champ.norm)和 p 值(來自 champ.MVP)。計算每個 DMR 內歸一化 Beta 值的相關矩陣,然後將其用於通過其平方相關係數的倒數和對每個探針的 p 值進行加權。這具有降低高度相關(非獨立)探針的 p 值和增加不相關(獨立)探針的 p 值的權重的效果。使用錯誤發現率 (FDR) 方法 [21] 對 DMR 的 p 值進行多次測試校正。
最後,Probe Lasso 返回一個數據框,其中包含所有 DMR 中的所有探針,以及每個探針的基因組註釋和 DMR 詳細信息,例如 DMR 坐標、大小和 FDR 校正的 p 值。
探測lasso和滑動固定窗口參數
編輯作為原理證明,使用來自癌症基因組圖譜(TGCA,http://cancergenome.nih.gov;[22])的數據,針對 DMR 調用的滑動固定窗口方法對 Probe Lasso 算法進行了基準測試。為確保算法之間的 MVP 列表一致,在兩種算法中保持以下探針過濾參數不變:filterXY = TRUE,mafPol.lower = 0,mafPol.upper = 0,popPol = 「eur」。以下 DMR 分類器在兩種算法中保持不變:minDmrSep = 1000 和 minDmrSize = 0。還使用 adjPVal = 0.05 設置了 lassos/windows 捕獲的 MVP 的顯着性閾值。最後,通過將套索/窗口中捕獲的重要探針的最小數量更改為 3、5 和 7(即探針套索算法:minSigProbesLasso = 3|5|7),針對日益嚴格的 DMR 調用條件對算法進行了比較。控制探針套索尺寸動態特性的探針套索算法獨有的參數設置如下:lassoStyle = 「max」,lassoRadius = 2000。
對於滑動固定窗口方法,選擇了三個窗口大小:250 bp,因為在使用具有上述參數的 Probe Lasso 時,這返回了相當數量的探針/DMR; 750 bp,因為這對應於使用帶有上述參數的 Probe Lasso 的動態窗口的平均大小;和 2000 bp 的極端情況。連續的窗口重疊了 50%。滑動固定窗口方法在本文中稱為「window.250」、「window.750」和「window.2000」。
結果和討論
編輯數據集
編輯從 TCGA 下載了 38 個正常結腸癌和 40 個結直腸癌樣本的原始強度數據(idat 文件),並通過 ChAMP 管道輸入這些數據。 在過濾掉一個探針通過檢測過濾器(p < 0.01)<98% 的正常結腸樣本後,過濾掉了映射到性染色體的探針、非 CG 探針和具有至少 1 個低檢測值的探針(N = 22,720)。 最終數據集包含 77 個樣本中的 448,832 個常染色體探針。 沒有發現使用 champ.SVD 存在技術混雜的證據(參見補充圖 1)。
甲基化可變位置和 DMR 調用
編輯在實施 champ.MVP 後,發現了 192,981 個 MVP(FDR <0.05),並且使用 Probe Lasso('lasso DMRs')和滑動窗口方法('window DMRs')將這些提煉成 DMR。 將 Probe Lasso 作為 champ.lasso 的一部分實現會輸出一系列圖形,讓用戶可以判斷他們選擇的參數是否設置得當。 它們是: 由遺傳/表觀遺傳特徵分割的探針間距的分位數分佈(圖 3),顯示了從用戶指定參數得出的分位數; 顯示圍繞重要探針拋出的套索大小的圖(補充圖 2); 以及由遺傳/表觀遺傳特徵劃分的特定於數據集的探針間距範圍(補充圖 3)。
DMR定位
Probe Lasso 的主要目的是緩和 DMR 調用,使其遠離探針密集程度更高的區域。計算了 lasso DMR、窗口 DMR 和全局 MVP 分佈中探針的遺傳、表觀遺傳和遺傳/表觀遺傳特徵的富集。使用了先前發表的表觀遺傳關係定義[8]。圖 4 和補充圖 4A 和 B 說明無論窗口大小如何,窗口 DMR 都嚴重偏向探針密集區域(例如,CGI 和一些 CGI 海岸內的大多數遺傳特徵)並遠離探針稀疏區域(例如, 5' UTR、基因體、3' UTR 和發生在 CGI 島和公共內的基因間區域)。所有三種基於窗口的方法(具有所有三種嚴格性)與僅 MVP(p 值範圍:0.0015-0.0109,Kolmolgorov-Smirnov 檢驗)的特徵豐富配置文件相比存在顯着差異。相比之下,套索 DMR 富集概況與僅 MVP 的富集沒有顯着差異(p > 0.1,Kolmolgorov-Smirnov 檢驗),除了使用 7 探針嚴格性時(p = 0.026)。
圖 4. 富集圖說明了使用 Probe Lasso 算法(深灰色條)、滑動固定窗口方法(中灰色)和所有 MVP(淺灰色)捕獲的探針的遺傳/表觀遺傳特徵分佈。 正如預測的那樣,滑動固定窗口方法豐富了轉錄起始位點 (TSS) 和 CGI 附近的探針。 相反,Probe Lasso 豐富了 CGI 貨架和公海,這更符合所有 MVP 探針的遺傳/表觀遺傳特徵。
DMR 覆蓋範圍
編輯表 1 總結了針對三種不同嚴格性中的每一種使用兩種算法調用的 DMR 數量。 比較同類窗口大小 (window.750),可以看到滑動固定窗口方法在所有三個嚴格條件下都比 Probe Lasso 更難識別:在最不嚴格的條件下 (minSigProbesLasso = 3),接近所有探針的五分之一 測試落入窗口 DMR。 將窗口大小減少三分之二 (window.250) 導致探針和 DMR 的輸出與 Probe Lasso 相似,而增加窗口大小 (window.2000) 導致原始 MVP 列表的數據減少很少,超過三個 - 四分之一的重要探針和三分之一的所有測試探針被合併到 DMR 中。 正如預期的那樣,增加嚴格性減少了被調用的 DMR 數量,以至於可以跟蹤不到 1 Mb 的遺傳和表觀遺傳多樣性序列進行靶向分析(例如,探針套索,每個套索有 7 個顯着探針)。
Algorithm | Stringency (# probes) | # DMRs | # Probes | Total DMR sequence [Mb] | DMR sequence overlap [%] | Total DMR core sequence [Mb] | DMR core sequence overlap [%] |
---|---|---|---|---|---|---|---|
Probe Lasso | 3 | 7028 | 38,524 | 10.0 | 4.8 | ||
Window.250 | 7416 | 41,028 | 3.3 | 15.0 | 2.2 | 19.4 | |
Window.750 | 13,458 | 92,470 | 16.7 | 43.5 | 10.2 | 46.2 | |
Window.1000 | 16,178 | 148,323 | 52.3 | 81.3 | 28.2 | 82.9 | |
Probe Lasso | 5 | 1226 | 11,556 | 2.6 | 1.5 | ||
Window.250 | 1428 | 11,335 | 0.5 | 5.3 | 0.4 | 6.7 | |
Window.750 | 4425 | 39,455 | 4.7 | 22.9 | 3.2 | 25.7 | |
Window.2000 | 7385 | 84,610 | 22.2 | 67.9 | 13.8 | 70.2 | |
Probe Lasso | 7 | 395 | 5035 | 0.9 | 0.6 | ||
Window.250 | 400 | 4068 | 0.1 | 3.7 | 0.1 | 4.5 | |
Window.750 | 1690 | 18,748 | 1.7 | 17.2 | 1.2 | 18.4 | |
Window.2000 | 3840 | 52,443 | 11.0 | 58.6 | 7.4 | 61.4 |
接下來評估了窗口 DMR 和探針套索 DMR 的獨特性。 將嚴格性降至最低並比較具有相似 DMR 數量的算法(窗口 250),所有 DMR 中有 24.3% 是 Probe Lasso 獨有的,27.3% 是窗口 DMR 獨有的(表 1 和圖 5A)。 獨特 DMR 的數量隨着嚴格性而增加:使用 5 個顯着探針時,31.6% 的套索 DMR 和 38.7% 的窗口 DMR 是獨特的; 37.3% 的套索 DMR 和 37.7% 的窗口 DMR 是獨特的,使用 7 個顯着探針。 每個算法獨有的探針比例高於獨特 DMR 的比例(探針套索:37.8%;window.250:40.3%;圖 5B)。
圖 5. Probe Lasso 和 window.250 算法之間的 DMR、探針和序列共享。 大約 50% 的 DMR 在兩種方法之間共享 (A),但共享的探針數量較少 (B)。 當分析 DMR 序列時,看到共享信息 (C) 急劇減少,這是由於 Probe Lasso DMR 利用了來自 IGR 的更多信息,這些信息以較低的 CpG 密度為代表。 即使在 (D) 中控制探針套索邊界時,這種趨勢也會保持。
當分析序列共享時,觀察到更多的排他性:例如,在套索 DMR 覆蓋的 9.95 Mb 序列中(使用 3 個顯着探針),63.7% 是獨特的(表 1 和圖 5C)。此外,當嚴格性增加到 5 個探針(2.6 Mb 的獨特序列的 78.7%)和 7 個探針(0.9 Mb 的獨特序列的 83.8%)時,來自不同算法的 DMR 的序列排他性與 DMR 排他性不成比例。為了確認這不是由於「死空間」,即 DMR 邊界延伸到沒有數據的區域,將每個 DMR 邊界限制為每個 DMR 中第一個和最後一個探針的基因組坐標(「DMR 核心」 」)。在這裏,觀察到嚴格性增加的類似趨勢:對於 3 個探針,4.8 Mb DMR 核心序列中有 54.9% 是 Probe Lasso DMR 獨有的;對於 5 個探針,1.53 Mb 的 75.4% 是唯一的;對於 7 個探針,81.5% 的 0.62 Mb 是唯一的。因此,儘管這兩種算法選擇了重疊近 50% 的 DMR,但可能跟進的序列可能會有很大差異。
這部分是由於 Probe Lasso 在一系列遺傳和表觀遺傳特徵中挑選 DMR,並反映在 DMR 大小的分佈中。圖 6 顯示 Probe Lasso 調用的 DMR 範圍從 19 bp 到 25 Kb。它還強調了固定窗口方法在某種程度上僅限於調用與窗口大小一樣小的 DMR,儘管通過關注 DMR 內核可以改善這種情況(補充圖 5)。儘管如此,Probe Lasso 在廣泛的 DMR 大小和集中的 DMR 數量之間取得了不錯的平衡。
圖 6. 小提琴圖展示了使用 Probe Lasso 和具有不同嚴格程度的滑動固定窗口方法的 DMR 大小分佈。 通常,Probe Lasso 捕獲更廣泛的 DMR 大小,而基於滑動窗口的方法捕獲的最小 DMR 通常受限於非重疊窗口的大小。 總的來說,Probe Lasso 完成了與各種尺寸滑動窗口的組合工作類似的工作,而不會產生大量的 DMR。
DMR 的生物學相關性
編輯由於 window.750 和 window.2000 與 Probe Lasso 定義的 DMR 數量之間存在差異,將注意力集中在比較 Probe Lasso DMR 與 window.250 DMR。對每個 DMR 集的分析表明,這兩種方法都可以檢測先前相關的結直腸癌基因(如 BMP3、EYA2、ALX4 和 VIM [23] 以及 MLH1 [24])中的高甲基化 DMR。然而,專注於每種算法獨有的 DMR 中的重要探針(探針套索:N = 8947;window.250:N = 11,708)揭示了每種方法之間有趣的差異。首先,可能不出所料,在獨特的窗口中發現了重要的探針。 250 DMR 最常見於 TSS 相關區域(TSS1500 = 21.5%;TSS200 = 36.7%)和 CGI(71.6%);另一方面,獨特的 Probe Lasso DMR 中的重要探針最有可能在基因體 (30.3%) 和 IGR (48.7%) 中發現,並且極有可能在公海 (60%) 中發現。有趣的是,5'UTR 基因組特徵(8.0% 對 6.9%)和 CGI 海岸(20.4% 對 18.5%)的表示幾乎沒有差異。
作為表徵獨特 DMR 的一種手段,接下來試圖確定與獨特 DMR 相關的保守黨生物學過程。使用 Discriminative Regular Expression Motif Elicitation (DREME; [25]) 工具使用以每個算法獨有的 DMR 中重要探針的目標位點為中心的 16mer 進行了模體分析。在每個 DMR 集中發現的基序數量很小(window.250 vs. Probe Lasso:5 vs. 4),但與每個算法輸入的探針基序數量成正比(11,708 vs. 8947)。然後將這些基序提交給 Tomtom [26] 以鑑定可能的 DNA 結合蛋白。總共 42 個潛在的 DNA 結合蛋白與兩個 DMR 集中鑑定的 9 個基序相關。其中有九個是共同的,包括 STAT 成員、EGR2 和 N-MYC。有 11 種 DNA 結合蛋白與獨特的 Probe Lasso DMR 相關,其中包括 PAX 家族成員、EHF 和 PPARG;其餘 21 種蛋白質是 window.250 DMR 所獨有的,包括 E2F1-、KLF- 和 SP-家族成員(詳見補充表 2)。在獨特的窗口中,更多的基序與 DNA 結合蛋白相關,這也許並不奇怪。 250 DMR 設置偏向於靠近轉錄起始位點的探針,在那裏 DNA 結合活性更高;然而,有趣的是,在獨特的 Probe Lasso DMR 集中發現的基序與更多樣化的基因本體論預測相關,可能突出了以前由於關注基因啟動子的歷史偏好而忽略的新途徑(見補充表 2) )。
最後,檢查了與顯着相關基序匹配的探針子集,以衡量獨特的 DMR 是否可以通過獨特的 DNA 甲基化模式來表徵。奇怪的是,發現映射到 Probe Lasso 衍生基序的探針在結腸直腸樣本中表現出強烈的低甲基化趨勢(參見補充圖 6A),可能使這些結合位點對轉錄因子的作用開放。相反,在 window.250 衍生的基序中發現了相反的模式,表明對推定的腫瘤抑制基因的轉錄親和力增加(參見補充圖 6B)。
結論
編輯在本文中,介紹了 Probe Lasso,這是一種使用 Illumina 450K 甲基化 BeadChip 陣列調用 DMR 的方法。 Probe Lasso 是作為 Bioconductor 包 ChAMP 中功能套件的一部分實施的,ChAMP 是一種一體化分析管道,可獲取原始甲基化數據並導出 MVP 和 DMR 以供進一步研究。與更基本的 DMR 調用方法(例如滑動固定窗口方法)相比,Probe Lasso 具有相當大的優勢。首先是 DMR 不偏向探針密集區域,並且能夠利用來自陣列的更多信息。其次,使用一小部分 TCGA 數據,表明 Probe Lasso DMR 突出了低甲基化轉錄因子結合基序的作用,這些基序在潛在的新途徑中起關鍵作用。最後,Probe Lasso 算法引入了一個框架,可以通過全基因組亞硫酸氫鹽測序進行 DMR 調用;在這裏,而不是使用探針間距,並且因為 WGBS 受益於完全覆蓋,CpG 密度可用於標記 DMR 邊界。
參考文獻
編輯- [1] T.J. Morris, L.M. Butcher, A. Feber, A.E. Teschendorff, A.R. Chakravarthy, T.K. Wojdacz, S. Beck Bioinformatics, 30 (3) (2014), pp. 428-430 CrossRef View Record in Scopus
- [2] M.J. Ziller, H. Gu, F. Muller, J. Donaghey, L.T. Tsai, O. Kohlbacher, P.L. De Jager, E.D. Rosen, D.A. Bennett, B.E. Bernstein, A. Gnirke, A. Meissner Nature, 500 (7463) (2013), pp. 477-481 CrossRefView Record in Scopus
- [3] C. Bock Nat. Rev. Genet., 13 (10) (2012), pp. 705-719
CrossRef View Record in Scopus
- [4] Y. Li, J. Zhu, G. Tian, N. Li, Q. Li, M. Ye, H. Zheng, J. Yu, H. Wu, J. Sun, H. Zhang, Q. Chen, R. Luo, M. Chen, Y. He, X. Jin, Q. Zhang, C. Yu, G. Zhou, J. Sun, Y. Huang, H. Zheng, H. Cao, X. Zhou, S. Guo, X. Hu, X. Li, K. Kristiansen, L. Bolund, J. Xu, W. Wang, H. Yang, J. Wang, R. Li, S. Beck, J. Wang, X. Zhang PLoS Biol., 8 (11) (2010), p. e1000533 CrossRef View Record in Scopus
- [5] R. Lister, M. Pelizzola, R.H. Dowen, R.D. Hawkins, G. Hon, J. Tonti-Filippini, J.R. Nery, L. Lee, Z. Ye, Q.M. Ngo, L. Edsall, J. ntosiewicz-Bourget, R. Stewart, V. Ruotti, A.H. Millar, J.A. Thomson, B. Ren, J.R. Ecker Nature, 462 (7271) (2009), pp. 315-322
CrossRef View Record in Scopus
- [6] T.A. Down, V.K. Rakyan, D.J. Turner, P. Flicek, H. Li, E. Kulesha, S. Graf, N. Johnson, J. Herrero, E.M. Tomazou, N.P. Thorne, L. Backdahl, M. Herberth, K.L. Howe, D.K. Jackson, M.M. Miretti, J.C. Marioni, E. Birney, T.J. Hubbard, R. Durbin, S. Tavare, S. Beck Nat. Biotechnol., 26 (7) (2008), pp. 779-785
CrossRef View Record in Scopus
- [7] A. Meissner, A. Gnirke, G.W. Bell, B. Ramsahoye, E.S. Lander, R. Jaenisch Nucleic Acids Res., 33 (18) (2005), pp. 5868-5877
CrossRef View Record in Scopus
- [8] M. Bibikova, B. Barnes, C. Tsan, V. Ho, B. Klotzle, J.M. Le, D. Delano, L. Zhang, G.P. Schroth, K.L. Gunderson, J.B. Fan, R. Shen Genomics, 98 (4) (2011), pp. 288-295 Article Download PDF View Record in Scopus
- [9] S. Beck Nat. Biotechnol., 28 (10) (2010), pp. 1026-1028
CrossRef View Record in Scopus
- [10] O. Taiwo, G.A. Wilson, T. Morris, S. Seisenberger, W. Reik, D. Pearce, S. Beck, L.M. Butcher Nat. Protoc., 7 (4) (2012), pp. 617-636 CrossRef View Record in Scopus
- [11] R. Lowe, V.K. Rakyan BMC Bioinformatics, 14 (2013), p. 359 View Record in Scopus
- [12] A.E. Jaffe, P. Murakami, H. Lee, J.T. Leek, M.D. Fallin, A.P. Feinberg, R.A. Irizarry Int. J. Epidemiol., 41 (1) (2012), pp. 200-209 CrossRef View Record in Scopus
- [13] M.J. Aryee, A.E. Jaffe, H. Corrada-Bravo, C. Ladd-Acosta, A.P. Feinberg, K.D. Hansen, R.A. Irizarry Bioinformatics (2014)
- [14] T. Sofer, E.D. Schifano, J.A. Hoppin, L. Hou, A.A. Baccarelli Bioinformatics, 29 (22) (2013), pp. 2884-2891 CrossRef View Record in Scopus
- [15] T. Peters, M. Buckley, DMRcate: Illumina 450K Methylation Array Spatial Analysis Methods [R Package Version 1.0.2], 2014.
- [16] B.S. Pedersen, D.A. Schwartz, I.V. Yang, K.J. Kechris Bioinformatics, 28 (22) (2012), pp. 2986-2988 CrossRef View Record in Scopus
- [17] G.K. Smyth Stat. Appl. Genet. Mol. Biol., 3 (2004), pp. 397-420 View Record in Scopus
- [18] The 1000 Genomes Project Consortium Nature, 467 (7319) (2010), pp. 1061-1073
- [19] F. Eckhardt, J. Lewin, R. Cortese, V.K. Rakyan, J. Attwood, M. Burger, J. Burton, T.V. Cox, R. Davies, T.A. Down, C. Haefliger, R. Horton, K. Howe, D.K. Jackson, J. Kunde, C. Koenig, J. Liddle, D. Niblett, T. Otto, R. Pettett, S. Seemann, C. Thompson, T. West, J. Rogers, A. Olek, K. Berlin, S. Beck Nat. Genet., 38 (12) (2006), pp. 1378-1385 CrossRef View Record in Scopus
- [20] S.A. Stouffer, E.A. Suchman, L.C. DeVinney, S.A. Star, R.M. Williams Jr. The American Soldier: Adjustment during Army Life, vol. 1, Princeton University Press, Princeton (1949)
- [21] Y. Hochberg, Y. Benjamini Stat. Med., 9 (7) (1990), pp. 811-818 CrossRef View Record in Scopus
- [22] J.N. Weinstein, E.A. Collisson, G.B. Mills, K.R. Shaw, B.A. Ozenberger, K. Ellrott, I. Shmulevich, C. Sander, J.M. Stuart Nat. Genet., 45 (10) (2013), pp. 1113-1120 CrossRef View Record in Scopus
- [23] H. Zou, J.J. Harrington, A.M. Shire, R.L. Rego, L. Wang, M.E. Campbell, A.L. Oberg, D.A. Ahlquist Cancer Epidemiol. Biomarkers Prev., 16 (12) (2007), pp. 2686-2696
CrossRef View Record in Scopus
- [24] D.J. Weisenberger, B.N. Trinh, M. Campan, S. Sharma, T.I. Long, S. Ananthnarayan, G. Liang, F.J. Esteva, G.N. Hortobagyi, F. McCormick, P.A. Jones, P.W. Laird Nucleic Acids Res., 36 (14) (2008), pp. 4689-4698 CrossRef View Record in Scopus
- [25] T.L. Bailey Bioinformatics, 27 (12) (2011), pp. 1653-1659
CrossRef View Record in Scopus
- [26] S. Gupta, J.A. Stamatoyannopoulos, T.L. Bailey, W.S. Noble Genome Biol., 8 (2) (2007), p. R24 CrossRef View Record in Scopus
ChAMP:更新了 Illumina BeadChip 的甲基化分析流程
編輯Tian Y, Morris TJ, Webster AP, Yang Z, Beck S, Andrew F, Teschendorff AE (2017). 「ChAMP: updated methylation analysis pipeline for Illumina BeadChips.」 Bioinformatics, btx513. doi: 10.1093/bioinformatics/btx513.
摘要
編輯Illumina Infinium HumanMethylationEPIC BeadChip 是用於高通量 DNA 甲基化分析的新平台,與舊的 450 K 陣列相比,覆蓋率有效地提高了一倍。 在這裏,展示了 Bioconductor 包 ChAMP 的顯着更新和改進版本,可用於分析 EPIC 和 450k 數據。 添加了許多增強功能,包括校正細胞類型異質性、網絡分析和一系列交互式圖形用戶界面。
ChAMP 是一個 BioC 包,可從 https://bioconductor.org/packages/release/bioc/html/ChAMP.html 獲得。
引言
編輯DNA甲基化是研究最多的表觀遺傳修飾。 Illumina 的新型 EPIC BeadChip 可以以單核苷酸解像度測量超過 850 000 個位點的甲基化。 EPIC BeadChip 包含 450 K 陣列上存在的超過 90% 的探針,顯示出高重現性,並將成為表觀基因組關聯研究的常用工具(Moran 等,2016)。
ChAMP 是 2014 年發佈的集成分析管道 (Morris et al., 2014),其中包括過濾低質量探針、調整 Infinium I 和 Infinium II 探針設計、批次效應校正、檢測差異甲基化位置 (DMP)、發現差異甲基化區域 (DMR) 和檢測拷貝數畸變 (CNA)。
新版本的 ChAMP 擴展並改進了這一分析流程,增加了新的和增強的功能,包括檢測差異甲基化基因組塊 (DMB)、基因集富集分析 (GSEA)、一種校正細胞類型異質性和檢測差異的方法甲基化基因模塊。值得注意的是,新軟件包提供了一系列基於 Web 的圖形用戶界面 (GUI),可促進分析並增強用戶體驗。
描述
編輯ChAMP 是一個 R 包,目前需要 R(≥3.4)。 ChAMP 使用其新穎的加載功能或通過 minfi 加載功能從 IDAT 文件加載數據(Aryee 等,2014)。可以根據檢測 P 值、染色體位置、探針序列中單核苷酸多態性的存在(Zhou 等,2016)和交叉雜交來過濾探針。多維標度、密度和聚類圖允許探索性分析。對於歸一化,功能歸一化(Fortin 等人,2014 年)已作為選項與 β 混合分位數歸一化(Teschendorff 等人,2013 年)一起添加。奇異值分解用於將主成分與生物和技術因素相關聯,幫助用戶決定是否存在需要調整的批次效應或混雜因素。
對於監督分析,除了基於 limma 的 DMP 和基於 ProbeLasso 的 DMR 分析功能(Butcher 和 Beck,2015),現在還增加了使用 Bumhunter(Jaffe 等,2012)和 DMRcate(Peters 等, 2015)。還可以識別大規模差異甲基化塊 (DMB)。這些 DMB 是包含數百個基因間 CpG 位點的大規模基因組區域 (10 kb-Mb)(圖 1B),並且在衰老和癌症中經常表現出低甲基化(Yuan 等,2015)。還添加了允許用戶檢測用戶定義的基因網絡中差異甲基化熱點的功能(Jiao 等,2014)。此外,ChAMP 在 DMP 和 DMR 結果上結合了 GSEA 功能(Young 等,2010)。
ChAMP 管道。 (A) ChAMP 中包含的所有功能。 用於數據準備的藍色函數。 用於生成分析結果的紅色函數。 黃色函數是用於可視化的 GUI 函數。 帶有淺綠色閃光的函數和邊緣代表主管道(標記是使用 ChAMP 的步驟)。 虛線表示可能不一定需要功能。 (B) 用於 DMB 可視化的 GUI 功能。 左側面板顯示用於控制繪圖和表格的參數
在 ChAMP 中,可以使用基於參考的 RefbaseEWAS 校正血液中的細胞類型異質性(Houseman 等,2012)。 ChAMP 的另一個獨特功能是檢測 CNA 的功能(Feber 等,2014)。由於所有這些功能,ChAMP 現在是一種更強大、更全面的 DNA 甲基化分析工具(圖 1A)。
除了使上述所有功能適用於 EPIC BeadChip 外,還有兩項技術改進將使用戶受益。首先,ChAMP 接受多種數據輸入格式,包括 IDATS、β 值矩陣和表型數據文件。其次,提供了一系列基於 javascript 的 GUI。這允許輕鬆檢查結果,並為 DMR 或 DMB 生成數字。 Shiny 是 R 的 Web 應用程式框架,適用於創建簡單的交互式網頁,以及開源 JavaScript 圖形庫 Plotly 與 ChAMP 結果集成,允許用戶查看、選擇和放大和縮小 ChAMP 獲得的結果。所有 GUI 都使用 ChAMP 函數的結果作為參數(圖 1B)。
提供了完整的詳細信息和 ChAMP 的示例工作流程(補充材料)。
結論
編輯總之,ChAMP 為 Illumina HumanMethylation BeadChip 分析提供了一個大大改進、功能強大且全面的流程。
參考文獻
編輯Aryee M.J. et al. (2014) Minfi: a flexible and comprehensive bioconductor package for the analysis of infinium DNA methylation microarrays. Bioinformatics, 30, 1363–1369.
Google Scholar Crossref PubMed
Butcher L.M., Beck S. (2015) Probe Lasso: a novel method to rope in differentially methylated regions with 450K DNA methylation data. Methods, 72, 21–28.
Google Scholar Crossref PubMed
Feber A. et al. (2014) Using high-density DNA methylation arrays to profile copy number alterations. Genome Biol, 15, R30.
Google Scholar Crossref PubMed
Fortin J.P. et al. (2014) Functional normalization of 450k methylation array data improves replication in large cancer studies. Genome Biol, 15, 503.
Google Scholar Crossref PubMed
Houseman E.A. et al. (2012) DNA methylation arrays as surrogate measures of cell mixture distribution. BMC Bioinformatics, 13, 86.
Google Scholar Crossref PubMed
Jaffe A.E. et al. (2012) Significance analysis and statistical dissection of variably methylated regions. Biostatistics, 13, 166–178.
Google Scholar Crossref PubMed
Jiao Y. et al. (2014) A systems-level integrative framework for genome-wide DNA methylation and gene expression data identifies differential gene expression modules under epigenetic control. Bioinformatics, 30, 2360–2366.
Google Scholar Crossref PubMed
Moran S. et al. (2016) Validation of a DNA methylation microarray for 850, 000 cpg sites of the human genome enriched in enhancer sequences. Epigenomics, 8, 389–399.
Google Scholar Crossref PubMed
Morris T.J. et al. (2014) Champ: 450k chip analysis methylation pipeline. Bioinformatics, 30, 428–430.
Google Scholar Crossref PubMed
Peters T.J. et al. (2015) De novo identification of differentially methylated regions in the human genome. Epigenetics Chromatin, 8, 6.
Teschendorff A.E. et al. (2013) A beta-mixture quantile normalization method for correcting probe design bias in Illumina Infinium 450 k DNA methylation data. Bioinformatics, 29, 189–196.
Google Scholar Crossref PubMed
Young M.D. et al. (2010) Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biol, 11, R14.
Google Scholar Crossref PubMed
Yuan T. et al. (2015) An integrative multi-scale analysis of the dynamic DNA methylation landscape in aging. PLoS Genet, 11, e1004996.
Google Scholar Crossref PubMed
Zhou W. et al. (2016) Comprehensive characterization, annotation and innovative use of infinium DNA methylation Beadchip probes. Nucleic Acids Research.