生物化学与分子生物学/真核基因的结构与功能

真核基因与基因组 - 真核基因的结构与功能 - 真核基因组的结构与功能
DNA是基因的物质基础,基因的功能实际上是DNA的功能。基因的功能包括:

  • 利用4种碱基的不同排列荷载遗传信息;
  • 通过复制将所有的遗传信息稳定、忠实地遗传给子代细胞,在这一过程中,体内外环境均可导致随机发生的基因突变,这些突变是生物进化的基础;
  • 作为基因表达(gene expression)的模板,使其所携带的遗传信息通过各种RNA和蛋白质在细胞内有序合成而表现出来。基因的功能通过两个相关部分信息而完成:一是可以在细胞内表达为蛋白质或功能RNA的编码区(coding region)序列;二是为表达这些基因(即合成RNA)所需要的启动子 (promoter)、增强子 (enhancer)等调控区(regulatory region)序列。 单个基因的组成结构及一个完整的生物体内基因的组织排列方式统称为基因组构(gene organization)。

真核基因的基本结构

编辑

基因的基本结构包含编码蛋白质或RNA的编码序列(coding sequence)及相关的非编码序列,后者包括单个编码序列间的间隔序列以及转录起始点后的基因5'-端非翻译区、3'-端非翻译区。与原核生物相比较,真核基因结构最突出的特点是其不连续性,被称为断裂基因(split gene)或割裂基因(interrupted gene)。
如果将成熟的mRNA分子序列与其基因序列(即DNA序列)比较,可以发现并不是全部的基因序列都保留在成熟的mRNA分子中,有一些区段经过剪接(splicing)被去除。在基因序列中,出现在成熟 mRNA 分子上的序列称为外显子(exon);位于外显子之间、与 mRNA 剪接过程中被删除部分相对应的间隔序列则称为内含子(intron)。每个基因的内含子数目比外显子要少1个。内含子和外显子同时出现在最初合成的 mRNA 前体中,在合成后被剪接加工为成熟 mRNA 。 如全长为7.7kb的鸡卵清蛋白基因有8个外显子和7个内含子,最初合成的mRNA 前体与相应的基因是等长的,内含子序列被切除后的成熟 mRNA 分子的长度仅为1.2kb。不同的基因中外显子的数量不同,少则数个,多则数十个。外显子的数量是描述基因结构的重要特征之一。
原核细胞的基因基本没有内含子。高等真核生物绝大部分编码蛋白质的基因都有内含子,但组蛋白编码基因例外。 此外,编码 rRNA 和一些 tRNA 的基因也都有内含子。 内含子的数量和大小在很大程度上决定了高等真核生物基因的大小。低等真核生物的内含子分布差别很大,有的酵母的结构基因较少有内含子,有的则较常见。在不同种属中,外显子序列通常比较保守,而内含子序列则变异较大。外显子与内含子接头处有一段高度保守的序列,即内含子5'-末端大多数以 GT 开始,3'-末端大多数以 AG 结束,这一共有序列 (consensus sequence) 是真核基因中RNA 剪接的识别信号。
为方便叙述基因编码序列和其调节序列的关系,人们约定将一个基因的 5'-端称之为上游,3'-端称为下游;为标定 DNA信息的具体位置,将基因序列中开始 RNA 链合成的第一个核背酸所对应的碱基记为+l,在此碱基上游的序列记为负数,向5'-端依次为-1 、-2等;在此碱基下游的序列记为正数,向3'-端依次为+2、+3等。零不用于标记碱基位置。

基因编码区编码多肽链和特定的RNA分子

编辑

基因编码区中的 DNA 碱基序列决定一个特定的成熟 RNA 分子的序列,换言之, DNA 的一级结构决定着其转录产物 RNA 分子的一级结构。有的基因仅编码一些有特定功能的 RNA, 如 rRNA、tRNA及其他小分子 RNA等;而大多数基因则通过 mRNA 进一步编码蛋白质多肽链。无论是编码 RNA 还是编码蛋白质,基本原则是基因的编码序列决定了其编码产物的序列和功能。因此,编码序列中一个碱基的改变或突变,都有可能使基因功能发生重要的变化。这些变化可能是原有功能的丧失,或是新功能的获得。当然,也有的碱基突变不会影响编码产物的序列或功能。
需要指出的是,有些相同的 DNA 序列由于其起始位点的变化或 mRNA不同的剪接产物可以编码不同的蛋白质多肽链。

调控序列参与真核基因表达调控

编辑

位于基因转录区前后并与其紧邻的 DNA序列通常是基因的调控区,又称为旁侧序列(flanking sequence)。真核基因的调控序列远较原核生物复杂,迄今了解仍很有限。这些调控序列又被称为顺式作用元件(cis-acting element), 包括启动子、上游调控元件、增强子、绝缘子、加尾信号和一些细胞信号反应元件等。

  • 启动子提供转录起始信号 启动子是DNA分子上能够介导RNA聚合酶结合并形成转录起始复合体的序列。大部分真核基因的启动子位于基因转录起点的上游,启动子本身通常不被转录;但有一些启动子(如编码tRNA基因的启动子)的DNA序列可以位于转录起始点的下游,这些DNA序列可以被转录。真核生物主要有3类启动子 , 分别对应于细胞内存在的三种不同的RNA聚合酶和相关蛋白质。
    • Ⅰ类启动子富含GC碱基对:具有Ⅰ类启动子的基因主要是编码rRNA的基因。Ⅰ类启动子包括核心启动子 (core promoter) 和上游启动子元件(upstream promoter element, UPE)两部分,能增强转录的起始。两部分序列都富含GC碱基对。
    • Ⅱ类启动子具有TATA盒特征结构:具有Ⅱ类启动子的基因主要是能转录出mRNA且编码蛋白质的基因和一些snRNA基因。Ⅱ类启动子通常是由TATA盒 (TATA box)、上游调控元件如增强子和起始元件 (initiator element, Inr)组成。TATA盒的核心序列是 TATA(A/T)A(A/T), 决定着RNA合成的起始位点。有的Ⅱ类启动子在TATA盒的上游还可存在CAAT盒、GC盒等特征序列,共同组成启动子。
    • Ⅲ类启动子包括 A盒 、B盒和 C盒:具有Ⅲ类启动子的基因包括5S rRNA、tRNA、U6 snRNA等RNA分子的编码基因。
  • 增强子增强邻近基因的转录 增强子是可以增强真核启动子工作效率的顺式作用元件,是真核基因最重要的调控序列,决定着每一个基因在细胞内的表达水平。这一调控序列能够在相对于启动子的任何方向和任何位置(上游或者下游)上发挥这种增强作用,但大部分位于上游。增强子序列距离所调控基因距离近者几十个碱基对,远的可达几千个碱基对。通常数个增强子序列形成一簇,有时增强子序列也可位于内含子之中。不同的增强子序列结合不同的调节蛋白。
  • 沉默子是负调节元件 沉默子 (silencer)是可抑制基因转录的特定DNA序列,当其结合一些反式作用因子时对基因的转录起阻遏作用,使基因沉默。
  • 绝缘子阻碍增强子的作用 绝缘子 (insulator)是基因组上对转录调控起重要作用的一种元件,可以阻碍增强子对启动子的作用,或者保护基因不受附近染色质环境(如异染色质)的影响。特异的转录因子如酵母RAPI蛋白和脊椎动物细胞中 CTCF(CCCTC-b indingfactor )蛋白结合于绝缘子而发挥调控作用。绝缘子阻碍增强子对启动子的作用可能通过影响染色质的三维结构如DNA发生弯曲或形成环状结构。