生物化學與分子生物學/基因組學
組學與系統生物醫學 -
基因組學 -
轉錄物組學 -
蛋白質組學 -
代謝組學 -
其他組學 -
系統生物醫學及其應用
基因組(genome)是基因(gene)和染色體(chromosome)兩個名詞的組合,指的是一個生命單元所擁有的全部遺傳物質(包括核內和核外遺傳信息),其本質就是DNA/RNA。基因組學(genomics)是闡明整個基因組結構、結構與功能關係以及基因之間相互作用的科學。根據研究目的不同而分為結構基因組學(structural genomics)、功能基因組學(functional genomics)和比較基因組學(comparative genomics)。結構基因組學通過基因組作圖和序列測定,揭示基因組全部DNA序列及其組成;比較基因組學通過模式生物基因組之間或模式生物與人類基因組之間的比較與鑑定,發現同源基因或差異基因,為研究生物進化提供依據;功能基因組學則利用結構基因組學所提供的信息,分析和鑑定基因組中所有基因(包括編碼和非編碼序列)的功能。近年來,在基因組水平上研究不改變基因組序列而通過表觀遺傳修飾調控基因或基因組表達的表觀基因組學(epigenomics)成為研究熱點。
結構基因組學揭示基因組序列信息
編輯結構基因組學主要通過人類基因組計劃(human genome project, HGP)的實施,解析人類自身DNA的序列和結構。研究內容就是通過基因組作圖和大規模序列測定等方法,構建人類基因組圖譜,即遺傳圖譜(genetic map)、物理圖譜(physical map)、序列圖譜(sequence map)和轉錄圖譜(transcription map)。
通過遺傳作圖和物理作圖繪製人類基因組草圖
編輯人染色體DNA很長,不能直接進行測序,必須先將基因組DNA進行分解、標記,使之成為可操作的較小結構區域,這一過程稱為作圖。HGP實施過程採用了遺傳作圖和物理作圖的策略。
- 遺傳作圖就是繪製連鎖圖 遺傳圖譜又稱連鎖圖譜(linkage map)。遺傳作圖(genetic mapping)就是確定連鎖的遺傳標誌(genetic marker; 或分子標誌,molecular marker)位點在一條染色體上的排列順序以及它們之間的相對遺傳距離,用厘摩爾根(centi-Morgan, cM)表示,當兩個遺傳標記之間的重組值為1%時,圖距即為1cM(約為1000kb)。常用的遺傳標誌有限制性片段長度多態性(restriction fragment length polymorphism, RFLP) 、可變數目串聯重複序列(variable number of tandem repeat , VNTR) 和單核苷酸多態性 (single nucleotide polymorphism, SNP) , 其中SNP的精確度最高 (0.5~1.0kb)。
- 物理作圖就是描繪雜交圖、限制性酶切圖及克隆系圖 物理作圖 (physical mapping) 以物理尺度(bp或kb)標示遺傳標誌在染色體上的實際位置和它們間的距離,是在遺傳作圖基礎上繪製的更為詳細的基因組圖譜。物理作圖包括熒光原位雜交圖(fluorescent in situ hybridization map, FISH map; 將熒光標記探針與染色體雜交確定分子標記所在的位置)、限制性酶切圖(restriction map ; 將限制性酶切位點標定在 DNA 分子的相對位置)及克隆重疊群圖(clone contig map) 等。在這些操作中,構建克隆重疊群圖是最重要的一種物理作圖,它是在採用酶切位點稀有的限制性內切酶或高頻超聲破碎技術將 DNA 分解成大片段後,再通過構建酵母人工染色體(yeast artificial chromosome, YAC) 或細菌人工染色體(bacterial artificial chromosome, BAC), 獲取含已知基因組序列標籤位點 (sequence tagged site, STS) 的 DNA 大片段。STS 是指在染色體上定位明確、並且可用 PCR 擴增的單拷貝序列,每隔 100kb距離就有一個標誌。在 STS 基礎上構建覆蓋每條染色體的大片段 DNA 連續克隆系就可繪製精細物理圖。可以說,通過克隆重疊群作圖就可以知曉特異 DNA 大片段在特異染色體上的定位,這就為大規模 DNA 測序做好了準備。
通過EST文庫繪製轉錄圈譜
編輯人類基因組 DNA 中只有約2%的序列為蛋白質編碼序列,對於一個特定的個體來講,其體內所有類型的細胞均含有同樣的一套基因組,但成年個體每一特定組織中,細胞內一般只有 10% 的基因是表達的;即使是同一種細胞,在其發育的不同階段,基因表達譜亦是不一樣的。因此,了解每一組織細胞及其在不同發育階段、不同生理和病理情況下 mRNA 轉錄情況,可以幫助我們了解不同狀態下細胞基因表達情況,推斷基因的生物學功能。
轉錄圖譜又稱為 cDNA 圖或表達圖(expression map), 是一種以表達序列標籤(expressed sequence tag, EST)為位標繪製的分子遺傳圖譜。通過從 cDNA 文庫中隨機挑取的克隆進行測序所獲得的部分cDNA 的5'-或 3'-端序列稱為 EST,一般長 300~500bp左右。將 mRNA 逆轉錄合成的 cDNA 片段作為探針與基因組 DNA 進行分子雜交,標記轉錄基因,就可以繪製出可表達基因的轉錄圖譜。
通過BAC克隆系和鳥槍法測序等構建序列固譜
編輯在基因作圖的基礎上,通過 BAC 克隆系的構建和鳥槍法測序(shotgun sequencing) , 就可完成全基因組的測序工作,再通過生物信息學手段,即可構建基因組的序列圖譜。
BAC 載體是一種裝載較大片段 DNA 的克隆載體系統,用於基因組文庫構建。全基因組鳥槍法測 序是直接將整個基因組打成不同大小的 DNA 片段,構建 BAC 文庫,然後對文庫進行隨機測序,最後運用生物信息學方法將測序片段拼接成全基因組序列,此稱為基因組組裝 (genome assembly)。
比較基因組學鑑別基因組的相似性和差異性
編輯比較基因組學是在基因組序列的基礎上,通過與已知生物基因組的比較,鑑別基因組的相似性和 差異性,一方面可為闡明物種進化關係提供依據,另一方面可根據基因的同源性預測相關基因的功能。比較基因組學可在物種間和物種內進行,前者稱為種間比較基因組學,後者則稱為種內比較基因組學,兩者均采可用 BLAST 等序列比對工具。
種間比較基因組學闡明物種間基因組結構的異同
編輯種間比較基因組學通過比較不同親緣關係物種的基因組序列,可以鑑別出編碼序列、非編碼(調控)序列及特定物種獨有的基因序列。而對基因組序列的比對,可以了解不同物種在基因構成、基因順序和核昔酸組成等方面的異同,從而用於基因定位和基因功能的預測,並為闡明生物系統發生進化關係提供數據。
種內比較基因組學闡明群體內基因組結構的變異和多態性
編輯同種群體內各個個體基因組存在大量的變異和多態性,這種基因組序列的差異構成了不同個體與群體對疾病的易感性和對藥物、環境因素等不同反應的分子遺傳學基礎。例如,SNP最大限度地代表了不同個體之間的遺傳差異,鑑別個體間 SNP差異可揭示不同個體的疾病易感性和對藥物的反應 性,有利於判定不同人群對疾病的易感程度並指導個體化用藥。
功能基因組學系統探討基因的活動規律
編輯功能基因組學的主要研究內容包括基因組的表達、基因組功能注釋、基因組表達調控網絡及機制 的研究等。它從整體水平上研究一種組織或細胞在同一時間或同一條件下所表達基因的種類、數量、功能,或同一細胞在不同狀態下基因表達的差異。它可以同時對多個表達基因或蛋白質進行研究,使得生物學研究從以往的單一基因或單一蛋白質分子研究轉向多個基因或蛋白質的系統研究。
通過全基因組掃描鑑定DNA序列中的基因
編輯這項工作以基因組DNA序列數據庫為基礎,加工和注釋人類基因組的DNA序列,進行新基因預測、蛋白質功能預測及疾病基因的發現。主要採用計算機技術進行全基因組掃描,鑑定內含子與外顯子之間的銜接,尋找全長可讀框(open reading frame, 0RF) , 確定多膚鏈編碼序列。
通過BLAST等程序搜索同源基因
編輯同源基因在進化過程中來自共同的祖先,因此通過核苷酸或胺基酸序列的同源性比較,就可以推 測基因組內相似基因的功能。這種同源搜索涉及序列比較分析,NCBI的BLAST程序是基因同源性搜索和比對的有效工具。每一個基因在 GenBank 中都有一個序列訪問號(accession number), 在 BLAST界面上輸入2條或多條訪問號,就可實現一對或多對序列的比對。
通過實驗驗證基因功能
編輯可設計一系列的實驗來驗證基因的功能,包括轉基因、基因過表達、基因敲除、基因敲減或基因沉默等方法,結合所觀察到的表型變化即可驗證基因功能。由於生命活動的重要功能基因在進化上是保守的,因此可以採用合適的模式生物進行實驗。
通過轉錄物組和蛋臼質組描述基因表達模式
編輯基因的表達包括轉錄和翻譯過程,研究基因的表達模式及調控可藉助轉錄物組學和蛋白質組學相關技術與方法進行。
ENCODE計劃旨在識別人類基因組所有功能元件
編輯HGP提供了人類基因組的序列信息(符號),並定位了大部分蛋白質編碼基因。如何解密這些符號代表的意義,特別是還有98%左右的非蛋白質編碼序列的功能,仍然是一項十分繁重的任務。
ENCODE計劃是HGP的延續與深入
編輯若要全面理解生命體的複雜性,必須全面確定基因組中各個功能元件及其作用。在此背景下,美國於2003年9月啟動了DNA元件百科全書(the Encyclopedia of DNA Element, ENCODE)計劃。 ENCODE計劃的目標是識別人類基因組的所有功能元件,包括蛋白質編碼基因、各類RNA編碼序列、轉錄調控元件以及介導染色體結構和動力學的元件等,當然還包括有待明確的其他類型的功能性序列, 其目的是完成人類基因組中所有功能元件的注釋,幫助我們更精確地理解人類的生命過程和疾病的發生、發展機制。
ENCODE計劃已取得重要階段性成果
編輯根據ENCODE計劃聯盟有關1640組覆蓋整個人類基因組的數據分析報告認為:人類基因組的大部分序列(80.4%)具有各種類型的功能,而並非之前認為的大部分是「垃圾」DNA; 人類基因組中有399124個區域具有增強子樣特徵,70292個區域具有啟動子樣特徵;非編碼功能元件富含與疾病相關的SNP, 大部分疾病的表型與轉錄因子相關。這些發現有助於深入理解基因表達調控的規律,並發現和鑑定出一大批與疾病相關的遺傳學風險因子。