細胞生物學/基因及其結構
細胞內遺傳信息的傳遞及調控 -
基因及其結構 -
基因轉錄和轉錄後加工 -
蛋白質的生物合成 -
基因表達的調控 -
基因的信息傳遞與醫學
基因及其信息流向
編輯基因是DNA分子中含有特定遺傳信息的苷酸序列
編輯細胞的生物學性狀是由其遺傳物質所攜帶的遺傳信息決定的,絕大多數的遺傳物質是DNA, 少數噬菌體和病毒的遺傳物質是RNA。基因(gene)是細胞內遺傳物質的最小功能單位,是負載有特定遺傳信息的DNA片段。在原核細胞中,一個基因就是DNA分子的一個片段;但在真核細胞,一個基因可以是DNA分子的一個片段或是若干片段的組合。基因能夠編碼生物活性物質,其產物為各種RNA和蛋白質。為了區分調控途徑中的成員和被調控的基因,目前一般將基因分為結構基因(structural gene)和調控基因(regulatory gene)。結構基因是指編碼非調控因子的任何蛋白質和RNA的基因,其表達產物如結構蛋白、酶、RrNA和RtNA等;而調控基因則通過編碼蛋白質或RNA來調節其他基因的表達。
構成DNA遺傳信息的物質基礎是DNA序列中的核甘酸排列順序,不同的生物細胞中DNA所載有的遺傳信息大小不一,基因數目不同,所合成的蛋白質種類不同,這也是生物物種豐富多彩的原因。蛋白質是生命活動的執行者,通過轉錄和翻譯,基因DNA的編碼序列決定了蛋白質的一級結構,從而決定蛋白質的功能。通過DNA的複製,基因所攜帶的遺傳信息代代相傳。
基因組(genome)是指細胞或生物體的一套完整的單倍體遺傳物質,是所有染色體上全部基因和基因間的DNA的總和,它含有一個生物體進行各種生命活動所需要的全部遺傳信息。原核細胞沒有細胞核結構,其基因組以裸露DNA或RNA的形式存在於細胞中,其基因組結構較真核細胞簡單。真核細胞基因組的複雜性和信息量的龐大程度遠遠超過原核細胞。研究表明,由於DNA存在編碼區與非編碼區,基因組的大小並不一定代表基因組的複雜性。例如,人類基因組約有3.O×l09 bp,但只有2萬~3萬個基因,僅是大腸桿菌(E.coli ) 4000個基因的5~7倍;而蛛姬和百合花的DNA數量卻是人類基因組的10倍,但這些生物的複雜程度顯然比不上人類。
中心法則揭示了基因的信息流向
編輯基因是遺傳信息的貯存形式。在細胞內,遺傳信息的流向一般是DNA→RNA→蛋白質。首先以DNA作為模板合成RNA分子,接着RNA分子指導特定蛋白質合成,此過程稱為基因表達(gene expression)。基因表達的終產物是蛋白質(也可以是RNA)。遺傳信息從DNA到RNA再到蛋白質的流動,稱為分子生物學的中心法則(central dogma)。中心法則包括:①複製(replication) ,即遺傳信息可由親代DNA通過半保留複製傳遞給子代DNA;②轉錄(transcription),即以DNA為模板合成RNA的過程;③翻譯(translation)以RNA(mRNA)為模板指導蛋白質生物合成的過程,即由mRNA的核昔酸序列轉變為蛋白質的胺基酸序列。後來的研究發現了逆轉錄現象,逆轉錄酶能催化以RNA為模板合成DNA,從而證明了遺傳信息亦可反向傳遞,即從RNA→DNA;另外,一些RNA病毒可以RNA為模板複製出新的RNA,這些現象都是對中心法則的有益補充。
在遺傳信息傳遞的過程中,RNA分子起很重要的作用。負責翻譯為蛋白質的RNA, 像信使那樣攜帶着來自DNA的遺傳信息到胞質核糖體指導合成蛋白質,因而稱之為信使RNA(messenger RNA, mRNA)。除mRNA外,核糖體RNA(ribosomal RNA, rRNA)和轉運RNA(transfer RNA, tRNA)都是基因表達的終產物,它們不能被翻譯成蛋白質,但為蛋白質合成所需要。細胞中還有一些小分子的RNA在遺傳信息的表達調控中起重要作用。
基因的結構及特點
編輯原核細胞的基因結構較為簡單
編輯大多數原核細胞中只有一個DNA分子,即一條染色體。原核細胞基因組DNA的絕大部分可編碼蛋白質,只有小部分不轉錄,為非編碼區。在原核細胞中,功能相關的結構基因串聯排列,受上游共同調控區的控制,同時轉錄和翻譯,最終形成功能相關的幾種蛋白質。如大腸桿菌中與乳糖代謝有關的酶有三種:β-半乳糖苷酶、β-半乳糖苷通透酶和β-半乳糖苷乙醯轉移酶,編碼這三種酶的結構基因分別為LacZ 、LacY 和LacA ,串聯排列於大腸桿菌DNA的某一區段上。
位於結構基因上游的是啟動子(promoter)序列,它是RNA聚合酶識別和結合的部位,可以控制在同一條DNA上緊密連接的一個或幾個基因的轉錄。原核生物的啟動子大約有55個鹼基對長,其中包含有轉錄的起始點和RNA聚合酶的識別部位及結合部位。起始點是DNA模板鏈上開始進行轉錄作用的位點,以"+1"標識,在DNA模板上,從起始點開始順着轉錄方向的區域稱為下游;從起始點逆着轉錄方向的區域稱為上游。識別部位是RNA聚合酶的G因子識別DNA分子的部位,約有6個鹼基對,其中心位於上游-35bp處,所以稱為-35區,其共有序列是5'-TTGACA-3'。結合部位是指在DNA分子上與RNA聚合酶核心酶緊密結合的序列,其長度大約是7個鹼基對,其中心位於起始點上游的-lObp處,因此將此部位稱為-10區。多種啟動子的-10區具有高度的保守性和一致性,它們有一個共有序列或共同序列,為5'-TATAAT-3',又稱為Pribnow盒(pribnow box)。在Pribnow盒中的DNA雙鏈容易解開,利於RNA聚合酶的進入而促使轉錄作用的起始。
原核細胞結構基因序列是連續的(沒有內含子成分),在轉錄後不需要剪切和加工。
真核細胞基因是不連續的斷裂基因
編輯與原核細胞相比,真核細胞基因組DNA含量要大得多,如人單倍體基因組DNA含量是大腸桿菌的近700倍。除了數量多,真核細胞的基因結構也更複雜。首先,基因序列由編碼區(coding region)和非編碼區(non-coding region)組成,編碼區(編碼序列)是不連續的,被非編碼區(非編碼序列)所隔斷,因而真核細胞基因也稱為斷裂基因(split gene)。其次,在真核基因組中存在許多重複序列,有些鹼基序列反覆出現可達百萬次以上。此外,真核細胞基因大小相差懸殊,如人血紅蛋白-珠蛋白基因全長約1 700bp, 而DMD(Duchenne's muscular dystrophy, 假肥大型肌營養不良)基因全長可達2300kb。真核細胞基因結構的複雜性賦予了真核生物更為精細的功能。
1、真核細胞基因由多個功能區域組成 真核基因一般是由若干內含子和外顯子構成的不連續鑲嵌結構的基因。除內含子和外顯子之外,完整的基因還包括位於編碼區上游的啟動子和基因末端的終止子。
(1) 外顯子和內含子:原核細胞的基因往往是連續的,DNA經轉錄後即可得到直接編碼蛋白質的序列,而真核細胞基因中編碼序列常常被非編碼序列隔斷,轉錄後需加工切去非編碼序列成為成熟的RNA, 才能進行蛋白質的合成。通常人們把基因內部能夠被轉錄,並能指導蛋白質生物合成的編碼序列稱為外顯子(exon),把在基因內部能夠被轉錄,但不能指導蛋白質生物合成的非編碼的序列稱為內含子(intron)。一個斷裂基因可由若干個外顯子和若干個內含子組成,基因中的外顯子與內含子間隔排列,其轉錄的終產物為mRNA。
在內含子的5'端多以GT開始,3'端多以AG結束,稱GT-AG法則,是普遍存在於真核細胞基因中RNA剪接的識別信號。在RNA剪接加工後形成的成熟mRNA的5'端和3'端,都各有一段由30到數百個核苷酸組成的非翻譯區(untranslated region, UTR)。
(2)啟動子:啟動子是基因上游的DNA序列,是控制轉錄的關鍵部位。啟動子中含有特徵性的核心序列,真核生物典型的啟動子是由TATA盒及其上游的CAAT盒和(或)GC盒組成。
在轉錄起始位點上游-25~-35bp區段是由7~10個鹼基組成而以TATA為核心的序列,稱為TATA盒(TATA box)。這一部位是RNA聚合酶及其他蛋白質因子的結合位點,與轉錄起始的準確定位有關。若TATA盒缺失,轉錄合成的RNA可有不同的5'端。位於TATA盒的上游,距轉錄起始點-70~-80bp區含有CCAAT序列,在-80~-llObp區含有GGGCGG序列,這兩段保守序列分別稱CAAT盒(CAAT box)和GC盒(GC box), 目前統稱為上游啟動子序列(upstream promoter sequence, UPS)或上游啟動子元件(upstream promoter element, UPE), 它們是許多蛋白質轉錄因子的結合位點。CAAT盒和GC盒是基因有效轉錄所必需的DNA序列,主要控制轉錄的起始頻率,基本不參與起始位點的確定。
(3) 終止子:終止子(terminator)是存在於基因末端具有轉錄終止功能的特定順序。轉錄後形成髮夾結構,使RNA聚合酶從模板上脫離,終止轉錄。
2、基因家族是真核細胞中—組來源相同、功能相關的基因 真核細胞基因結構最顯著的特徵之一是存在許多基因家族(gene family)。基因家族是真核細胞基因組中來源相同、結構相似、功能相關的一組基因,是由一個祖先基因經重複和變異形成的。按照在基因組中的分佈不同,基因家族可分為二類,一類是基因家族的成員成簇存在,串聯排列於特殊的染色體區段上,形成基因簇(gene
cluster), 它們常可同時轉錄,合成功能相關或相同的產物,如組蛋白、rRNA基因家族;另一類是基因家族成員分散存在,廣泛地分佈於整個染色體,甚至可存在於不同的染色體上,如干擾素、珠蛋白等基因家族。
在基因家族中,有些成員不能產生有功能的基因產物,稱為假基因(pseudogene) , 它們或是不能轉錄,或是轉錄後生成無功能的基因產物。假基因在核昔酸序列上與有功能的基因相似,它們可能來自同一祖先基因,只是在進化過程中某些成員的核昔酸序列中發生缺失、倒位、點突變而成為無功能的假基因。大多數基因家族都有假基因的存在,但數量很少。
3、真核基因組中含有大量的DNA重複序列 在真核細胞基因組中,編碼蛋白質的基因一般只有一個或幾個拷貝,這稱為單一序列(unique sequence)。除此之外,基因組中還含有大量的功能未知、有多個拷貝的DNA重複序列(repetitive sequence)。在動物細胞中,多達一半的DNA由DNA重複序列組成。根據DNA重複程度的不同,將其分為以下兩種:
(1) 中度重複序列:中度重複序列(moderately repetitive sequence)由相對較短的序列組成,重複次數在10~1000之間。一般認為,中度重複序列屬非編碼序列,散在分佈於基因組中,與基因調控有關。如人類Alu家族(Alu family )是人類基因組中含量最豐富的中度重複序列,占人類基因組的3%~6%,長300bp,Alu家族成員約有30萬個,因每個Alu序列中隱含有一個限制性內切酶AluI的識別序列ACCT而得名。Alu序列的功能可能與轉錄調節、hnRNA加工有關。
某些編碼功能性RNA和蛋白質的基因在基因組中的重複次數也達幾十到幾百次,它們串聯排列於基因組的一定區域,如rRNA基因和tRNA基因等,從嚴格意義上講,它們也屬於中度重複序列。
(2)高度重複序列:高度重複序列(highly repetitive sequence)由基因組中非常短的序列(一般小於lOObp)組成,其在基因組中的重複次數在幾千次以上, 一般組成長的串聯重複序列,常成簇分佈於染色體着絲粒區及染色體的端部,如衛星DNA。高度重複序列在哺乳動物基因組中的比例一般小於10%, 可能與基因表達調控及染色體結構維持有關,具體功能尚不清楚。
在生物進化過程中,來自自然環境和體內多種因素的影響,可引起DNA結構的改變,也就是基因發生突變。雖然細胞內具有修復DNA損傷的功能,但並非所有的損傷都能被修復。一些未能修復的損傷有可能形成可遺傳的突變。如果突變是發生在結構基因中,將使基因編碼的蛋白質發生結構改變,失去原有的功能,導致疾病的發生。基因突變是生物進化和分化的分子基礎,也是某些疾病的基礎,是生物界普遍存在的現象。