生物化學與分子生物學/真核基因組的結構與功能
真核基因與基因組-
真核基因的結構與功能 -
真核基因組的結構與功能
病毒、原核生物以及真核生物所貯存的遺傳信息量有着巨大的差別,其基因組的結構與組織形式上也各有特點,包括基因組中基因的組織排列方式以及基因的種類、數目和分布等。
人類基因組包含了細胞核染色體DNA(常染色體和性染色體)及線粒體DNA所攜帶的所有遺傳物質。
真核基因組具有獨特的結構
編輯真核生物的基因組龐大,具有以下結構特點。首先,真核基因組中基因的編碼序列所占比例遠小於非編碼序列。人的基因組中,編碼序列僅占全基因組的1%;在一個基因的全部序列中,編碼序列僅占5%。其次,高等真核生物基因組含有大量的重複序列,可以占到全基因組的80%以上,在人的基因組中重複序列達到50%以上。第三,真核基因組中存在多基因家族和假基因。人的染色體基因組DNA長約3.Oxl09bp, 編碼約2萬個基因,存在着l.5萬個基因家族。一個基因家族中,並非所有成員都具有功能,不具備正常功能的家族成員被稱為假基因。第四,大約 60% 的人基因轉錄後發生可變剪接,80% 的可變剪接會使蛋白質的序列發生改變。 第五,真核基因組 DNA 與蛋白質結合形成染色體,儲存於細胞核內,除配子細胞外,體細胞的基因組為二倍體(diploid) , 即有兩份同源的基因組。
真核生物基因組 DNA 與蛋白質結合,以染色體的方式存在於細胞核內。不同的真核生物具有不同的染色體數目。人類基因組的染色體 DNA 包括 22 條常染色體及 2 條性染色體的 DNA, 不同染色體的大小在 47Mb~250Mb 之間。其中,最長的染色體是第 1 號染色體,約 248.96Mb, 含有 5078 個基因;最小的是第 21 號染色體,約 46.71Mb, 含有 756 個基因。一些遺傳性疾病相關的基因,如阿爾茨海默病、肌萎縮性側索硬化症和唐氏綜合徵等,均位於第 21 號染色體。 人基因在染色體上分布也並不是均勻的。其中基因密度最大的是第 19 號染色體,平均每百萬鹼基有 23 個基因;密度最小的是第 13 號和 Y 染色體,平均每百萬鹼基只有5 個基因。 即便在基因密度最大的染色體上,也存在無基因的「沙漠區」,即在 500kb 區域內,沒有任何基因的編碼序列。這種基因分布是如何形成的、有何意義,目前尚不清楚。
真核基因組中存在大量重複序列
編輯真核細胞基因組存在着大量重複序列,人基因組中,重複序列占基因組長度的50%以上。 重複序列的長度不等,短的僅含兩個鹼基,長的多達數百乃至上千個鹼基。重複序列的重複頻率也不盡相同,可以分為高度重複序列(highly repetitive sequence)、中度重複序列(moderately repetitive sequence) 和單拷貝序列(single copy sequence)或低度重複序列等3種。
高度重複序列
編輯高度重複序列是真核基因組中存在的有數千到幾百萬個拷貝的DNA 重複序列。這些重複序列的長度為6~200bp, 不編碼蛋白質或 RNA。在人基因組中,高度重複序列約占基因組長度的20%。高度重複序列按其結構特點分為反向重複序列(inverted repeat sequence)和衛星DNA(satellite DNA )。前者由兩個相同順序的互補拷貝在同一DNA鏈上反向排列而成,反向重複的單位長度約為300bp或略短,其總長度約占人基因組的5%,多數是散在,而非群集於基因組中。衛星DNA 是真核細胞染色體具有的高度重複核苷酸序列,主要存在於染色體的着絲粒區,通常不被轉錄,在人基因組中可占10%以上。由於其鹼基組成中 GC含量少,具有不同的浮力密度,在氯化銫密度梯度離心後呈現出與大多數DNA有差別的「衛星」條帶而得名。
高度重複序列的功能主要是:
- 參與複製水平的調節。反向重複序列常存在於DNA複製起點區的附近,是一些蛋白質(包括酶)的結合位點。
- 參與基因表達的調控。高度重複序列可以轉錄到核內不均一RNA 分子中,而有些反向重複序列可以形成髮夾結構,有助於穩定RNA 分子。
- 參與染色體配對。如α衛星DNA 成簇樣分布在染色體着絲粒附近,可能與染色體減數分裂時染色體配對有關。
中度重複序列
編輯中度重複序列指在真核基因組中重複數十至數千次的核苷酸序列,通常占整個單倍體基因組的1%~30%。少數在基因組中成串排列在一個區域,大多數與單拷貝基因間隔排列。依據重複序列的長度,中度重複序列可分為以下兩種類型。
- 短散在核元件 短散在核元件(short interspersed nuclear elements, SINEs)又稱為短散在重複序列(short interspersed repeat sequence), 是以散在方式分布於基因組中的較短重複序列,平均長度約為300~500bp, 與平均長度約為lOOObp的單拷貝序列間隔排列。拷貝數可達數十萬。如Alu家族,Kpn Ⅰ家族和Hinf家族等屬於這種類型的中度重複序列。
Alu家族是哺乳類動物,包括人基因組中含量最豐富的一種短分散片段中度重複序列,平均每6kb DNA就有一個Alu序列,在單倍體人基因組中重複達30萬~50萬次,約占人基因組的3%~6%。Alu家族每個成員的長度約300bp, 由於每個單位長度中有一個限制性核酸內切酶Alu的切點(AG↓CT), 將其切成長130bp和170bp的兩段,因而命名為Alu序列(或Alu家族)。
Kpn I家族是中度重複序列中僅次於Alu家族的第二大家族,因其重複序列中含有限制性內切酶Kpn I的位點、可被水解為4個不同長度的片段而命名。Kpn I家族成員呈散在分布,拷貝數約為3000~4800個,占人類基因組的1%。
Hinf家族以319bp長度的串聯重複存在於人基因組中,因其重複序列中含有限制性核酸內切酶Hinf I的位點而命名。
- 長散在核元件 長散在核元件(long interspersed nuclear elements, LINEs)又稱為長散在重複序列(long interspersed repeat sequence), 以散在方式分布於基因組中的較長的重複序列,重複序列長度在lOOObp以上,常具有轉座活性。
中度重複序列在基因組中所占比例在不同種屬之間差異很大,一般約占10%~40% , 在人約為12%。 這些序列大多不編碼蛋白質,其功能可能類似於高度重複序列。
真核生物基因組中的 rRNA 基因也屬於中度重複序列。與其他中度重複序列不同,各重複單位中的 rRNA基因都是相同的。rRNA基因通常集中成簇存在,而不是分散於基因組中,這樣的區域稱為rDNA區,如染色體的核仁組織區(nucleolus organizer region )即為rDNA區。人類的rRNA基因位於13、14、15、21 和22號染色體的核仁組織區,每個核仁組織區平均含有50個rRNA基因的重複單位;5S rRNA基因似乎全部位於1號染色體(lq42-43)上,每個單倍體基因組約有1000個5SrRNA基因。
單拷貝序列(低度重複序列)
編輯單拷貝序列在單倍體基因組中只出現一次或數次,大多數編碼蛋白質的基因屬於這一類。在基因組中,單拷貝序列的兩側往往為散在分布的重複序列。單拷貝序列編碼的蛋白質在很大程度上體現了生物的各種功能,因此針對這些序列的研究對醫學實踐有特別重要的意義。
真核基因組中存在大量的多基因家族和假基因
編輯基因組中存在的許多來源於同一個祖先,結構和功能均相似的一組基因。這一組基因就構成了一個基因家族。同一家族的這些基因的外顯子具有相關性。多基因家族(multigene family)是真核基因組的另一結構特點,是指由某一祖先基因經過重複和變異所產生的一組在結構上相似、功能相關的基因。在細菌或病毒基因組中,80%以上的基因是具有獨特結構或功能的基因,但在人的基因組中,這類基因不足20%。
多基因家族大致可分為兩類:一類是基因家族成簇地分布在某一條染色體上,它們可同時發揮作用,合成某些蛋白質,如組蛋白基因家族就成簇地集中在第7號染色體長臂3區2帶到3區6帶區域內。另一類是一個基因家族的不同成員成簇地分布於不同染色體上,這些不同成員編碼一組功能上緊密相關的蛋白質,如人類珠蛋白基因家族分為α珠蛋白和β珠蛋白兩個基因簇,α珠蛋白基因簇、β珠蛋白基因簇分別位於第16號和第11號染色體。一些DNA序列相似,但功能不一定相關的若干個單拷貝基因或若干組基因家族可以被歸為基因超家族(superfamily gene), 例如免疫球蛋白基因超家族、ras基因超家族。 一個多基因家族中可有多個基因,根據結構與功能的不同又可以分為亞家族(subfamily) , 例如G蛋白中屬ras超家族約有50多個成員,根據其序列同源性程度又可進一步分為Ras、Rho和Rab三個主要的亞家族。
人的基因組中存在假基因(pseudogene) , 以φ來表示。 假基因是基因組中存在的一段與正常基因非常相似但一般不能表達的DNA序列。假基因根據其來源分為經過加工的假基因和未經過加工的假基因2種類型,前者沒有內含子,後者含有內含子。這類基因可能曾經有過功能,但在進化中獲得一個或幾個突變,造成了序列上的細微改變從而阻礙了正常的轉錄和翻譯功能,使它們不能再編碼RNA和蛋白質產物。人們推測,經過加工的假基因的來源可能是基因轉錄生成的成熟mRNA經逆轉錄產生cDNA,再整合到染色體DNA中去,便有可能成為假基因。經過加工的假基因通常缺少正常基因表達所需的調節序列、沒有內含子、可能有poly(A)尾。未經過加工的假基因來源於多拷貝或單拷貝基因的突變或者基因的不完全複製。人基因組中大約有2萬個假基因,其中約2 000個為核糖體蛋白的假基因。近些年發現,假基因也表達有功能的非編碼RNA(non-coding RNA, ncRNA)。
線粒體DNA的結構
編輯線粒體是細胞內的一種重要細胞器,是生物氧化的場所,一個細胞可擁有數百至上千個線粒體。線粒體DNA(mitochondrial DNA, mtDNA)可以獨立編碼線粒體中的一些蛋白質,因此mtDNA是核外遺傳物質。mtDNA的結構與原核生物的DNA類似,是環狀分子。線粒體基因的結構特點也與原核生物基因的結構特點相似。
人的線粒體基因組全長16 569bp, 共編碼37 個基因, 包括13個編碼構成呼吸鏈多酶體系的一些多肽的基因、22個編碼mt-tRNA的基因、2個編碼mt-rRNA(16S和12S)的基因。
人基因組約有兩萬個蛋白質編碼基因
編輯通過基因組測序 ,人們對數種生物的基因組大小和所含有的基因數量已有所了解。總體上來講,在進化過程中隨着生物個體複雜性的增加,基因組的總趨勢是由小變大、基因數也是由少變多。但是決定生物複雜性的因素較多,除基因組大小和基因數以外,還有基因密度(gene density)等因素。例如,人的基因組最大,複雜程度也最高,但所含的基因數量並不是最多。儘管不同機構公布的基因數目有所不同,但根據人類基因組計劃的數據推測,人的基因數目為2萬個左右,僅為果蠅基因數量的l.4倍左右,與線蟲基因數量大致相當。人類基因組基因密度較低,因為基因組中轉座子、內含子和調控序列較多,這些序列在進化過程對遺傳多樣性的產生至關重要。