生物化學與分子生物學/疾病相關基因鑑定克隆的策略和方法

基因結構功能分析和疾病相關基因鑑定克隆 - 基因結構分析 - 基因功能研究 - 疾病相關基因鑑定和克隆原則 - 疾病相關基因鑑定克隆的策略和方法
鑑定和克隆疾病相關基因的策略和方法主要包括，不依賴染色體定位的疾病相關基因克隆策略、定位克隆法、常見病的基因需要全基因組關聯分析和全外顯子測序法，以及生物信息數據庫貯藏豐富的疾病相關基因信息檢索法。

疾病相關基因鑑定和克隆可採用不依賴染色體定位的策略

不依賴染色體定位的疾病相關基因克隆策略包括功能克隆、表型克隆及採用位點非依賴的DNA序列信息和動物模型來鑑定和克隆疾病基因。

從已知蛋白質的功能和結構出發克隆疾病基因

在掌握或部分了解基因功能產物蛋白質的基礎上，鑑定蛋白質編碼基因的方法，稱之為功能克隆(functional cloning) 。這是相對於利用基因位置克隆基因的定位克隆而言的。該方法採用的是從蛋白質到 DNA 的研究路線，針對的是一些對影響疾病的功能蛋白具有一定了解的疾病，如血紅蛋白病、苯丙酮尿症等出生缺陷引起的分子病可以採用這個方法定位和克隆疾病基因。
1、依據蛋白質的胺基酸序列信息鑑定克隆疾病相關基因 如果疾病相關的蛋白質在體內表達豐富，可分離純化得到一定純度的足量蛋白質，就可用質譜或化學方法進行胺基酸序列分析，獲得全部或部分胺基酸序列信息。在此基礎上設計寡核苷酸探針，用於篩查 cDNA 文庫，可篩選出目的基因。使用這種策略時，必須考慮到密碼子的簡併性特點，即除了甲硫氨酸和色氨酸僅有1個密碼子外，其餘胺基酸均有2個或2個以上的密碼子。設計探針時應儘量避開有簡併密碼子的區域，但實際上往往難以做到。為此可以設計1套可能含有全部簡併密碼子信息的寡核苷酸探針，用此混合探針去篩查 cDNA 文庫，「釣出」目的基因克隆。除 cDNA 文庫篩查技術外，目前還可採用部分簡併混合寡核苷酸作為 PCR 引物，採用多種的 PCR 引物組合，以獲得候選基因的 PCR 產物。
上述方法曾成功地用於鋤狀細胞貧血的基因克隆。首先，免疫電泳等方法已經顯示出錦狀細胞貧血病入的珠蛋白異常，獲得部分胺基酸殘基序列後，設計了簡併寡核苷酸探針，篩選有核紅細胞系的 cDNA 文庫，得到了α珠蛋白基因的 cDNA，與正常人的 cDNA 比較，發現了α珠蛋白基因變異。進而找出 cDNA 探針與染色體 DNA 序列間的同源互補關係，將人的α珠蛋白基因定位於第16 號染色體上，並在此基礎上，提出了分子病 (molecular disease) 的概念。
2、用蛋白質的特異性抗體鑑定疾病基因 有些疾病相關的蛋白質在體內含量很低，難以純化得到足夠純度的蛋白質用於胺基酸序列測定。但是少量低純度的蛋白質仍可用於免疫動物獲得特異性抗體，用以鑑定基因。獲得的抗體一方面可用於直接結合正在翻譯過程中的新生肽鏈，此時會獲得同時結合在核糖體上的 mRNA 分子，最終克隆未知基因；另外，特異性抗體也可用來篩查可表達的 cDNA 文庫，篩選出可與該抗體反應的表達蛋白質的陽性克隆，進而可獲得候選基因。
功能克隆仍然是單基因疾病基因克隆的常用策略。其缺點是特異功能蛋白質的確認、鑑定及其純化都相當困難，微量表達的基因產物在研究中難以獲得，因而幾乎不能用於多基因疾病的基因分離。

從疾病的表型差異出發發現疾病相關基因

表型克隆(phenotype cloning)是疾病相關基因克隆領域中一個新的策略。該策略的原理是基於對疾病表型和基因結構或基因表達的特徵聯繫已經有所認識的基礎上來分離鑑定疾病相關基因。
依據 DNA 或 mRNA 的改變與疾病表型的關係，可有幾種策略：
第一種策略是從疾病的表型出發，比較病人基因組 DNA 與正常人基因組 DNA 的不同，直接對產生變異的 DNA 片段進行克隆，而不需要基因的染色體位置或基因產物的其他信息。例如，在一些遺傳性神經系統疾病中，病人基因組中含有的三聯重複序列的拷貝數可發生改變，並隨世代的傳遞而擴大，稱為基因的動態突變。此時，採用基因組錯配篩選(genome mismatch scanning) 、代表性差異分析(representative difference analysis, RDA)等技術即可檢測病人的 DNA 是否有三聯重複序列的拷貝數增加，從而確定患病原因。
第二種策略是針對已知基因。如果高度懷疑某種疾病是由於某個特殊的已知基因所致，可通過比較病人和正常對照間該基因表達的差異，來確定該基因是否為該疾病相關基因。常用分析方法有Northern 印跡法、RNA 酶保護試驗、RT-PCR 及實時定量 RT-PCR 等。
第三種策略是針對未知基因的，可通過比較疾病和正常組織中的所有mRNA的表達種類和含量間的差異，從而克隆疾病相關基因。這種差異可能源於基因結構改變，也可能源於表達調控機制的改變。常用的技術有mRNA差異顯示(mRNA differential display, mRNA-DD)、抑制消減雜交 (suppressive subtractive hybridization, SSH)基因表達系列分析(SAGE)、cDNA微陣列 (cDNA microarray)和基因鑑定集成法 (integrated procedure for gene identification)等。這裏僅分別介紹RDA和mRNA-DD技術。
1、RDA技術是建立在核酸差異雜交基礎上的PCR技術 RDA是通過對正常和疾病組織的 cDNA差異片段（即代表性片段）的擴增，從而使其被檢測和捕獲的技術。基本原理是，首先用PCR方法從擬比較的疾病和正常組織獲得足夠量的DNA或cDNA片段；然後進行差異雜交，雜交後再用不同引物進行第二次PCR反應；在第二次PCR反應中，只有兩個樣品中結構或表達量有差異的DNA片段可以得到擴增。
其基本步驟是：①DNA片段製備：分別提取正常人基因組DNA(檢測DNA)和病人基因組DNA （驅動DNA),用限制性內切酶消化DNA,獲得長度在150～lOOObp之間的片段；②獲得擴增子：在兩組的所有DNA片段上加上接頭，以接頭的互補序列為引物，進行第一步PCR擴增，所獲得擴增產物稱擴增子(amplicon) ; ③更換接頭：切去所有擴增子的接頭，僅在檢測擴增子上加上新的接頭；④篩選擴增產物：按 1:100 的比例混合檢測擴增子和驅動擴增子，進行液相雜交。取少量雜交反應物為模板，以新的接頭為引物再進行第二次PCR擴增，即可篩選出兩組DNA樣品間的差異片段。
檢測DNA和驅動DNA間片段在第二次PCR反應中依據兩者間是否有差異，主要可以出現兩種情況:①兩組間相同的DNA片段不會得到大量擴增。這是因為在雜交反應中，驅動DNA片段的數目遠大於檢測DNA,將優先結合檢測DNA,使得檢測DNA分子間幾乎沒有機會形成同源復性雙鏈。因此，利用新接頭進行的二次PCR反應過程將不會有擴增產物。②兩者的差異片段可得到擴增。如果檢測DNA中存在的某一片段在驅動DNA中缺失，或由於突變而失去了互補結合能力，在雜交反應中就不存在來自驅動DNA中的同源片段的競爭，檢測DNA自身可以發生復性，且由於復性的雙鏈DNA兩端都具有新接頭，因而可以實現PCR 的大量擴增。該片段即為候選的疾病相關DNA序列。雖然反應中無差異片段還會存在一些被擴增的可能，但產物量較小，可以被排除。
RDA也可用於mRNA差異表達基因的克隆，只是需要先將mRNA逆轉錄成 cDNA片段。RDA技術對正常和異常的DNA片段區分能力強、富集效率高、對起始材料要求低，利用 RDA人們已經發現了多個疾病相關新基因。
2、mRNA-DD是RT-PCR技術和聚丙烯醯胺凝膠電泳技術的結合 mRNA-DD又稱為差異顯示逆轉錄PCR(mRNA differential display reverse transcription PCR, DDRT-PCR)方法。該法利用可以擴增所有哺乳類生物 mRNA 的幾條 5'-端隨機引物和幾條 3'-端鈾定引物組合，用 PCR 的方法擴增正常人和患病個體的相應組織的 cDNA。用聚丙烯醯胺凝膠電泳分離擴增產物，比較兩組間產物的差異。依據理論計算，該方法所設計的組合引物可以與所有 mRNA 的 poly(A) 尾匹配，因而對於種類和含量相同的cDNA樣品，PCR產物的種類多少和分佈應該是完全一樣的。如果在正常和病人的cDNA標本中擴增出一些不同長度的cDNA片段，它們所代表的cDNA就有可能與疾病狀態相關。這一方法的優點在於所需 mRNA 量少、較快速、可同時顯示多種生物性狀的差異、可同時獲得高表達和低表達的基因等。這種方法同時也存在許多嚴重的缺陷，如假陽性率高達70%、獲得的片段太短等，很難直接判斷其功能和意義。儘管有上述缺陷，但因其步驟較簡單，可獲得較大量信息，在實際工作中該法應用仍較多。

採用動物模型鑑定克隆疾病相關基因

人類的部分疾病，已經有相應的動物模型。如果動物某種表型的突變基因定位於染色體的某一部位，而具有相似人類疾病表型的基因很有可能存在於人染色體的同源部位。另外，當疾病基因在動物模型上已完成鑑定，還可以採用熒光原位雜交來定位分離人的同源基因。肥胖相關的瘦蛋白（leptin）基因的克隆就是一個成功例證。利用突變的肥胖近交系小鼠通過定位克隆分離得到了位於小鼠6號染色體的瘦蛋白基因，依據小鼠瘦蛋白基因側翼標記，將人的瘦蛋白基因定位於人染色體7q31區。小鼠和人的瘦蛋白基因有84%的同源性，編碼167個胺基酸殘基的分泌性蛋白——瘦蛋白，其主要功能是控制食物的攝入，促進能量的消耗。肥胖小鼠和一些遺傳性肥胖症病人均具有該基因的缺損，導致基因功能喪失。

定位克隆是鑑定疾病相關基因的經典方法

僅根據疾病基因在染色體上的大體位置，鑑定克隆疾病相關基因，稱之為定位克隆(positional cloning)。定位克隆的起點是基因定位，即確定疾病相關基因在染色體上的位置，然後根據這一位置信息，應用 DNA 標記將經典的遺傳學信息轉換為遺傳標記所代表的特定基因組區域，再以相關基因組區域的相連重疊群(contig)篩選候選基因，最後比較病人和正常人這些基因的差異，確定基因和疾病的關係。人類基因組計劃後所進行的定位候選克隆，是將疾病相關位點定位於某一染色體區域後，根據該區域的基因、EST或模式生物對應的同源區的已知基因等有關信息，直接進行基因突變篩查，通過多次重複，最終確定疾病相關基因。

基因定位的方法有多種

基因定位(gene location) 是基因分離和克隆的基礎，目的是確定基因在染色體的位置以及基因在染色體上的線性排列順序和距離。可從家系分析、細胞、染色體和分子水平等幾個層次進行基因定位，由於使用手段的不同可派生出多種方法，不同方法又可聯合使用，相互補充。
1、體細胞雜交法通過融合細胞的篩查定位基因 體細胞雜交 (somatic cell hybridization) 又稱細胞融合(cell fusion), 是將來源不同的兩種細胞融合成一個新細胞。大多數體細胞雜交是用人的細胞與小鼠、大鼠或倉鼠的體細胞進行雜交。這種新產生的融合細胞稱為雜種細胞(hybrid cell), 含有雙親不同的染色體。雜種細胞有一個重要的特點是在其繁殖傳代過程中出現保留齧齒類一方染色體而人類染色體逐漸丟失，最後只剩一條或幾條，其原因至今不明。Miller 等運用體細胞雜交，結合雜種細胞的特徵，證明雜種細胞的存活需要胸苷激酶 (thymidine kinase, TK) 。含有人的第17號染色體的雜種細胞在特殊的培養基中，都因有 TK 活性而存活，反之則死亡，從而推斷 TK 基因定位於第17 號染色體上。利用這一方法定位了許多人的基因。腫瘤抑制基因也是應用體細胞雜交技術而被發現的。
2、染色體原位雜交是在細胞水平定位基因的常用方法 染色體原位雜交(chromosome in situ hybridization) 是核酸分子雜交技術在基因定位中的應用，也是一種直接進行基因定位的方法。其主要步驟是獲得組織培養的分裂中期細胞，將染色體 DNA 變性，與帶有標記的互補 DNA 探針雜交，顯影后可將基因定位於某染色體及染色體的某一區段。如果用熒光染料標記探針，即為熒光原位雜交 (fluorescence in situ hybridization, FISH)。1978 年首次用α及β珠蛋白基因的 cDNA 為探針，與各種不同的人/鼠雜種細胞進行雜交，從而將人α及β珠蛋白基因分別定位於第16號和第11號染色體上。這種染色體原位雜交技術特別適用於那些不轉錄的重複序列，這些重複序列很難用其他方法進行基因定位。如利用原位雜交技術將衛星 DNA 定位於染色體的着絲粒和端粒附近。
3、染色體異常有時可提供疾病基因定位的替代方法 從基因定位克隆的角度來看，對於任何已知與染色體異常(chromosome abnormalities) 直接相關的疾病來說，染色體的異常本身就成為疾病定位基因克隆的一個絕好的位置信息。染色體的異常有時可替代連鎖分析，用於定位疾病基因。在一些散發性、嚴重的顯性遺傳病，染色體變異分析是獲得候選基因的唯一方法。有時可直接獲得基因的正確位置，而無需進行連鎖分析，例如染色體的平衡易位和倒位等。諸如多囊腎、巨腸症、假肥大型肌營養不良基因的定位在很大程度上藉助於染色體的異常核型表現。
如果細胞學觀察的染色體異常與某一基因所表達的異常同時出現，即可將該基因定位於這一染色體的異常區域內。例如對一具有6號染色體臂間倒位的家系分析表現，凡是有此倒位者，同時也都有某一HLA 等位基因的表達；而家族中無此倒位者，也無該等位基因的表達，因此將該HLA 基因定於6號染色體短臂的遠側區。
染色體非整倍體分析中，可通過基因劑量法進行基因定位。在 Down 綜合症（核型47,+21)的病人中過氧化物歧化酶-1的活性比正常人高1.5倍，因此將該酶基因定位於21號染色體上。但是並非所有基因的拷貝數都有明顯的劑量效應作用。
4、連鎖分析是定位疾病未知基因的常用方法 基因定位的連鎖分析(linkage analysis) 是根據基因在染色體上呈直線排列，不同基因相互連鎖成連鎖群的原理，即應用被定位的基因與同一染色體上另一基因或遺傳標記相連鎖的特點進行定位。如果待定基因與標記基因呈連鎖遺傳，即可推斷待定基因與標記基因處於同一染色體上，並且依據和多個標記基因連鎖的程度（用兩者間的重組率度量），可確定待定基因在染色體的排列順序以及和標記基因間的遺傳距離（用 cM表示）。例如已知血型基因 Xs 定位於X染色體上，普通魚鱗病和眼白化病基因與其連鎖，因此判定這兩個基因也在X染色體上，計算病人子代的重組率，即可確定這些基因間的相對距離。

定位克隆疾病相關基因的過程包括三大步驟

定位克隆疾病相關基因是鑑定遺傳性疾病基因的主要手段，在早期的疾病基因鑑定工作中發揮了不可替代的作用，也獲得了巨大的成功。隨着人類基因組計劃的完成，採用定位克隆疾病基因的方法，更加容易實施，其主要的過程包括三個步驟。

儘可能縮小染色體上的候選區域 定位克隆疾病基因困難的大小取決於染色體候選區域的寬窄。為此要儘可能地縮小疾病相關基因在染色體上的候選區域。在單基因疾病基因的遺傳製圖時，需要選擇更多的遺傳標記，找出遺傳距離最近的標記，增加更多的家系、建立所有個體的單倍體型等，以增加發現重組機會，結合尋找更多連鎖不平衡，精確疾病相關基因的候選區域。
構建目的區域的基因列表 由於人類基因組計劃的完成，各種 DNA 分子水平上物理圖譜的建立，已經使得疾病相關基因的克隆變得較為容易。現在已無需建立 DNA 重疊群，直接使用人類基因組的數據庫，如基因組閱覽器Ensembl (http://www.ensemble.org) 或者 the Santa Cruz閱覽器 (http://genome.cse.ucsc.edu) 就可直接顯示候選區域已肯定或可能的基因，但也不能完全依賴這些信息，要仔細檢查重疊的拼裝是否正確。當然，還要結合 ENCODE 計劃的結果、非編碼序列、選擇性轉錄本等表達譜，獲得更多候選區域的基因信息。
候選區域優先考慮基因的選擇及突變檢測 為了鑑定突變，對無血緣關係的病人要進行 DNA 測序。可以測定候選區域所有的外顯子，也可測定優先考慮基因的外顯子，取決於研究策略、人力和財力的投入。可根據下列清況考慮該基因為優先考慮的基因：①合適的表達：一個好的候選基因的表達模式應該和疾病表型相一致，該基因不一定特徵性表達於病變組織，但至少在疾病發生前或發生時，疾病組織表達該基因，如神經管缺損的基因應該在神經管閉鎖前，即人胚胎發育的3～4周表達。②合適的功能：候選區域的基因功能，如果已知，就易於作出決定。如 fibrillin 和結締組織疾病 Marfan綜合症的關係。一個新基因序列的分析提示有某種功能，如有跨膜基序或酪氨酸激酶基序等，就可和疾病的發病機制聯繫起來，作出判斷。③同源性和功能關係：如果候選區域一個基因和已知的基因同源，不管是與人的間接同源(paralog) , 還是與其他種的直接同源(ortholog) , 而且也知道同源基因突變引起的相類似表型，該基因就有可能是疾病基因。候選基因的確定也可基於密切的功能關係，如受體和配體的關係，同一代謝或發育途徑的組分等。近年來，對模式生物基因功能的認識，更多的同源基因的表型被鑑定，極大地促進了人類致病基因的鑑定克隆工作。

假肥大型肌營養不良基因的克隆是定位克隆的成功例證

採用定位克隆策略鑑定的第一個疾病相關基因是X連鎖慢性肉芽腫病基因。而假肥大型肌營養不良(Duchenne muscular dystrophy, DMD)基因的成功克隆，更彰顯了基因定位克隆的優勢。這項工作主要分兩個階段。首先，根據患病女性 X 染色體與第 21 號常染色體的易位，以及男患兒發生小的Xp21.2 缺失並伴發三種其他 X 連鎖隱性遺傳病，再運用 RFLP 連鎖分析將 DMD 基因定位於 Xp21。然後，分別克隆得到了基因的2個不同的片段，分別命名為XJ系列探針和 pERT87 系列探針，根據兩片段的比較，證明 DMD 基因約為 2300kb, 占 X 染色體的 1% 以上，該基因編碼肌營養不良蛋白 (dystrophin) , 影響橫紋肌和心肌的結構和收縮功能。

確定常見病的基因需要全基因組關聯分析和全外顯子測序

基因連鎖分析在定位克隆遺傳性疾病的基因取得了成功，儘管鑑定複雜性疾病的易感基因採用了如罹患姊妹對(affected sib pair，ASP)分析方法，也取得一些成功的例子，但總體來說，並不理想。從 2005 年以來，基於連鎖不平衡(linkage disequilibrium) 理論發展而來的全基因組關聯研究 (genome-wide association study, GWAS), 在複雜疾病的基因定位克隆中，發揮了巨大的作用。 GWAS方法是一種在無假說驅動的條件下，通過掃描整個基因組觀察基因與疾病表型之間關聯的研究手段。具體操作中，通常收集成千上萬個病人和對照的 DNA 標本，利用高通量晶片進行 SNP 的基因定型，進一步通過統計學分析，確定分子 SNP 位點和疾病表型的關係。該方法已成功鑑定了常見多發病的多種基因位點，不僅有效簡化了常見病的相關基因鑑定過程，而且為研究疾病的發病機制和干預靶點提供了極有價值的信息。不過該技術對研究團隊的經濟實力，合作性，生物信息學水平以及龐大假陽性數據排查能力都有很高的要求，且只涉及常見等位基因的變異。
全外顯子測序(whole exon sequencing)技術則可對全基因組外顯子區域 DNA 富集從而進行高通量測序，它選擇性地檢測蛋白質編碼序列，可實現定位克隆，對常見和罕見的基因變異都具有較高靈敏度，僅對約1%的基因組片段進行測序就可覆蓋外顯子絕大部分疾病相關基因變異，其高的性價比使其在複雜疾病易感基因的研究中頗受推崇。

生物信息數據庫貯藏豐富的疾病相關基因信息

人類基因組計劃和多種模式生物基因組測序的完成，生物信息學的發展，計算機軟件的開發應用和互聯網的普及，人們通過已獲得的序列與數據庫中核酸序列及蛋白質序列進行同源性比較，或對數據庫中不同物種間的序列比較分析、拼接，預測新的全長基因等，進而通過實驗證實，從組織細胞中克隆該基因，這就是所謂的電子克隆(in silica cloning)。
人類新基因克隆大都是從同源 EST 分析開始的。應用同源比較，在人類 EST 數據庫中，識別和拼接與已知基因高度同源的人類新基因的方法包括：①以已知基因 cDNA 序列對 EST 數據庫進行搜索分析，即 BLAST(Basic Local Alignment Search Tool), 找出與已知基因 cDNA 序列高度同源的 EST；②用Seqlab 的 Fragment Assembly 軟件構建重疊群，並找出重疊的一致序列；③比較各重疊群的一致序列與已知基因的關係；④對編碼區蛋白質序列進行比較，並與已知基因的蛋白質的功能域進行比較分析，推測新基因的功能；⑤用新基因序列或 EST 序列對序列標籤位點(sequence-tagged site, STS)數據庫進行 BLAST 分析，如果某一 EST(非重複序列）與某一種 STS 有重疊，那麼，STS 的定位即確定了新基因的定位。電子克隆充分利用網絡資源，可大大提高克隆新基因的速度和效率。由於數據庫的不完善、錯誤信息的存在及分析軟件的缺陷，電子克隆往往難以真正地克隆基因，而是一種電子輔助克隆。