生物化学与分子生物学/真核基因组的结构与功能

真核基因与基因组- 真核基因的结构与功能 - 真核基因组的结构与功能
病毒、原核生物以及真核生物所贮存的遗传信息量有着巨大的差别,其基因组的结构与组织形式上也各有特点,包括基因组中基因的组织排列方式以及基因的种类、数目和分布等。
人类基因组包含了细胞核染色体DNA(常染色体和性染色体)及线粒体DNA所携带的所有遗传物质。

真核基因组具有独特的结构

编辑

真核生物的基因组庞大,具有以下结构特点。首先,真核基因组中基因的编码序列所占比例远小于非编码序列。人的基因组中,编码序列仅占全基因组的1%;在一个基因的全部序列中,编码序列仅占5%。其次,高等真核生物基因组含有大量的重复序列,可以占到全基因组的80%以上,在人的基因组中重复序列达到50%以上。第三,真核基因组中存在多基因家族和假基因。人的染色体基因组DNA长约3.Oxl09bp, 编码约2万个基因,存在着l.5万个基因家族。一个基因家族中,并非所有成员都具有功能,不具备正常功能的家族成员被称为假基因。第四,大约 60% 的人基因转录后发生可变剪接,80% 的可变剪接会使蛋白质的序列发生改变。 第五,真核基因组 DNA 与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞的基因组为二倍体(diploid) , 即有两份同源的基因组。
真核生物基因组 DNA 与蛋白质结合,以染色体的方式存在于细胞核内。不同的真核生物具有不同的染色体数目。人类基因组的染色体 DNA 包括 22 条常染色体及 2 条性染色体的 DNA, 不同染色体的大小在 47Mb~250Mb 之间。其中,最长的染色体是第 1 号染色体,约 248.96Mb, 含有 5078 个基因;最小的是第 21 号染色体,约 46.71Mb, 含有 756 个基因。一些遗传性疾病相关的基因,如阿尔茨海默病、肌萎缩性侧索硬化症和唐氏综合征等,均位于第 21 号染色体。 人基因在染色体上分布也并不是均匀的。其中基因密度最大的是第 19 号染色体,平均每百万碱基有 23 个基因;密度最小的是第 13 号和 Y 染色体,平均每百万碱基只有5 个基因。 即便在基因密度最大的染色体上,也存在无基因的“沙漠区”,即在 500kb 区域内,没有任何基因的编码序列。这种基因分布是如何形成的、有何意义,目前尚不清楚。

真核基因组中存在大量重复序列

编辑

真核细胞基因组存在着大量重复序列,人基因组中,重复序列占基因组长度的50%以上。 重复序列的长度不等,短的仅含两个碱基,长的多达数百乃至上千个碱基。重复序列的重复频率也不尽相同,可以分为高度重复序列(highly repetitive sequence)、中度重复序列(moderately repetitive sequence) 和单拷贝序列(single copy sequence)或低度重复序列等3种。

高度重复序列

编辑

高度重复序列是真核基因组中存在的有数千到几百万个拷贝的DNA 重复序列。这些重复序列的长度为6~200bp, 不编码蛋白质或 RNA。在人基因组中,高度重复序列约占基因组长度的20%。高度重复序列按其结构特点分为反向重复序列(inverted repeat sequence)和卫星DNA(satellite DNA )。前者由两个相同顺序的互补拷贝在同一DNA链上反向排列而成,反向重复的单位长度约为300bp或略短,其总长度约占人基因组的5%,多数是散在,而非群集于基因组中。卫星DNA 是真核细胞染色体具有的高度重复核苷酸序列,主要存在于染色体的着丝粒区,通常不被转录,在人基因组中可占10%以上。由于其碱基组成中 GC含量少,具有不同的浮力密度,在氯化铯密度梯度离心后呈现出与大多数DNA有差别的“卫星”条带而得名。
高度重复序列的功能主要是:

  • 参与复制水平的调节。反向重复序列常存在于DNA复制起点区的附近,是一些蛋白质(包括酶)的结合位点。
  • 参与基因表达的调控。高度重复序列可以转录到核内不均一RNA 分子中,而有些反向重复序列可以形成发夹结构,有助于稳定RNA 分子。
  • 参与染色体配对。如α卫星DNA 成簇样分布在染色体着丝粒附近,可能与染色体减数分裂时染色体配对有关。

中度重复序列

编辑

中度重复序列指在真核基因组中重复数十至数千次的核苷酸序列,通常占整个单倍体基因组的1%~30%。少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。依据重复序列的长度,中度重复序列可分为以下两种类型。

  • 短散在核元件 短散在核元件(short interspersed nuclear elements, SINEs)又称为短散在重复序列(short interspersed repeat sequence), 是以散在方式分布于基因组中的较短重复序列,平均长度约为300~500bp, 与平均长度约为lOOObp的单拷贝序列间隔排列。拷贝数可达数十万。如Alu家族,Kpn Ⅰ家族和Hinf家族等属于这种类型的中度重复序列。

Alu家族是哺乳类动物,包括人基因组中含量最丰富的一种短分散片段中度重复序列,平均每6kb DNA就有一个Alu序列,在单倍体人基因组中重复达30万~50万次,约占人基因组的3%~6%。Alu家族每个成员的长度约300bp, 由于每个单位长度中有一个限制性核酸内切酶Alu的切点(AG↓CT), 将其切成长130bp和170bp的两段,因而命名为Alu序列(或Alu家族)。
Kpn I家族是中度重复序列中仅次于Alu家族的第二大家族,因其重复序列中含有限制性内切酶Kpn I的位点、可被水解为4个不同长度的片段而命名。Kpn I家族成员呈散在分布,拷贝数约为3000~4800个,占人类基因组的1%。
Hinf家族以319bp长度的串联重复存在于人基因组中,因其重复序列中含有限制性核酸内切酶Hinf I的位点而命名。

  • 长散在核元件 长散在核元件(long interspersed nuclear elements, LINEs)又称为长散在重复序列(long interspersed repeat sequence), 以散在方式分布于基因组中的较长的重复序列,重复序列长度在lOOObp以上,常具有转座活性。

中度重复序列在基因组中所占比例在不同种属之间差异很大,一般约占10%~40% , 在人约为12%。 这些序列大多不编码蛋白质,其功能可能类似于高度重复序列。
真核生物基因组中的 rRNA 基因也属于中度重复序列。与其他中度重复序列不同,各重复单位中的 rRNA基因都是相同的。rRNA基因通常集中成簇存在,而不是分散于基因组中,这样的区域称为rDNA区,如染色体的核仁组织区(nucleolus organizer region )即为rDNA区。人类的rRNA基因位于13、14、15、21 和22号染色体的核仁组织区,每个核仁组织区平均含有50个rRNA基因的重复单位;5S rRNA基因似乎全部位于1号染色体(lq42-43)上,每个单倍体基因组约有1000个5SrRNA基因。

单拷贝序列(低度重复序列)

编辑

单拷贝序列在单倍体基因组中只出现一次或数次,大多数编码蛋白质的基因属于这一类。在基因组中,单拷贝序列的两侧往往为散在分布的重复序列。单拷贝序列编码的蛋白质在很大程度上体现了生物的各种功能,因此针对这些序列的研究对医学实践有特别重要的意义。

真核基因组中存在大量的多基因家族和假基因

编辑

基因组中存在的许多来源于同一个祖先,结构和功能均相似的一组基因。这一组基因就构成了一个基因家族。同一家族的这些基因的外显子具有相关性。多基因家族(multigene family)是真核基因组的另一结构特点,是指由某一祖先基因经过重复和变异所产生的一组在结构上相似、功能相关的基因。在细菌或病毒基因组中,80%以上的基因是具有独特结构或功能的基因,但在人的基因组中,这类基因不足20%。
多基因家族大致可分为两类:一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内。另一类是一个基因家族的不同成员成簇地分布于不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如人类珠蛋白基因家族分为α珠蛋白和β珠蛋白两个基因簇,α珠蛋白基因簇、β珠蛋白基因簇分别位于第16号和第11号染色体。一些DNA序列相似,但功能不一定相关的若干个单拷贝基因或若干组基因家族可以被归为基因超家族(superfamily gene), 例如免疫球蛋白基因超家族、ras基因超家族。 一个多基因家族中可有多个基因,根据结构与功能的不同又可以分为亚家族(subfamily) , 例如G蛋白中属ras超家族约有50多个成员,根据其序列同源性程度又可进一步分为Ras、Rho和Rab三个主要的亚家族。
人的基因组中存在假基因(pseudogene) , 以φ来表示。 假基因是基因组中存在的一段与正常基因非常相似但一般不能表达的DNA序列。假基因根据其来源分为经过加工的假基因和未经过加工的假基因2种类型,前者没有内含子,后者含有内含子。这类基因可能曾经有过功能,但在进化中获得一个或几个突变,造成了序列上的细微改变从而阻碍了正常的转录和翻译功能,使它们不能再编码RNA和蛋白质产物。人们推测,经过加工的假基因的来源可能是基因转录生成的成熟mRNA经逆转录产生cDNA,再整合到染色体DNA中去,便有可能成为假基因。经过加工的假基因通常缺少正常基因表达所需的调节序列、没有内含子、可能有poly(A)尾。未经过加工的假基因来源于多拷贝或单拷贝基因的突变或者基因的不完全复制。人基因组中大约有2万个假基因,其中约2 000个为核糖体蛋白的假基因。近些年发现,假基因也表达有功能的非编码RNA(non-coding RNA, ncRNA)。

线粒体DNA的结构

编辑

线粒体是细胞内的一种重要细胞器,是生物氧化的场所,一个细胞可拥有数百至上千个线粒体。线粒体DNA(mitochondrial DNA, mtDNA)可以独立编码线粒体中的一些蛋白质,因此mtDNA是核外遗传物质。mtDNA的结构与原核生物的DNA类似,是环状分子。线粒体基因的结构特点也与原核生物基因的结构特点相似。
人的线粒体基因组全长16 569bp, 共编码37 个基因, 包括13个编码构成呼吸链多酶体系的一些多肽的基因、22个编码mt-tRNA的基因、2个编码mt-rRNA(16S和12S)的基因。

人基因组约有两万个蛋白质编码基因

编辑

通过基因组测序 ,人们对数种生物的基因组大小和所含有的基因数量已有所了解。总体上来讲,在进化过程中随着生物个体复杂性的增加,基因组的总趋势是由小变大、基因数也是由少变多。但是决定生物复杂性的因素较多,除基因组大小和基因数以外,还有基因密度(gene density)等因素。例如,人的基因组最大,复杂程度也最高,但所含的基因数量并不是最多。尽管不同机构公布的基因数目有所不同,但根据人类基因组计划的数据推测,人的基因数目为2万个左右,仅为果蝇基因数量的l.4倍左右,与线虫基因数量大致相当。人类基因组基因密度较低,因为基因组中转座子、内含子和调控序列较多,这些序列在进化过程对遗传多样性的产生至关重要。