生物化学与分子生物学/基因结构分析
基因结构功能分析和疾病相关基因鉴定克隆 -
基因结构分析 -
基因功能研究 -
疾病相关基因鉴定和克隆原则 -
疾病相关基因鉴定克隆的策略和方法
大部分基因实质上就是一段特定的DNA序列,通常由编码序列和非编码序列组成。本节主要介绍分析基因编码序列和两种非编码序列(转录起点和启动子)的技术、分析基因拷贝数和基因表达产物的常用技术。
鉴定基因的顺式元件是了解基因表达的关键
编辑对基因结构的了解,除获得DNA的核苷酸序列外,还必须确定基因功能区域,这些功能区域包括基因编码区、启动子区和转录起始点等顺式作用元件区域。
编码序列的确定主要通过生物信息学、cDNA文库和RNA剪接分析法
编辑编码序列是对应着成熟mRNA的核苷酸序列,分析基因编码序列的主要技术如下。
1、用数据库分析基因编码序列 在基因数据库中,对各种方法所获得的cDNA片段的序列进行同源性比对,通过染色体定位分析、内含子/外显子分析、可读框(open reading frame, ORF)分析及表达谱分析等,可以初步明确基因的编码序列,并可对其编码产物的基本性质,如跨膜区、信号肤序列等进行分析。由于基因数据库的信息量不断增大,利用有限的序列信息即可通过同源性搜索获得全长基因序列,然后,利用美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)的 ORF Finder软件或EMBOSS中的getorf软件进行ORF分析,并根据编码序列和非编码序列的结构特点,便可确定基因的编码序列。
2、用cDNA文库法分析基因编码序列 对cDNA进行克隆测序或构建cDNA文库是最早分析基因编码序列的方法。全长cDNA文库一般可以通过mRNA的结构特征进行判断,因为尽管细胞中各mRNA的序列互不相同,但基本上都由3部分组成,即5'-UTR、编码序列和3'-UTR,其中编码序列含有以起始密码子开头、终止密码子结尾的ORF。
以cDNA文库作为编码序列的模板,利用PCR法即可将目的基因的编码序列钓取出来,如果按基因的保守序列合成PCR引物,即可从cDNA文库中克隆未知基因的编码序列;还可通过分析PCR产物来观察mRNA的不同拼接方式。
cDNA末端快速扩增(rapid-amplification of cDNA end, RACE)技术(包括5'-和3'-RACE)是高效钓取未知基因编码序列的一种方法,该方法可以利用mRNA内很短的一段序列来扩增与其互补的 cDNA末端序列,以此为线索,经过多次扩增及测序分析,最终可以获得基因的全部编码序列。
此外,采用核酸杂交法可从cDNA文库中,获得特定基因编码序列的cDNA克隆,该方法为寻找同源编码序列提供了可能,其做法是:根据其他生物的基因序列合成一段DNA探针,然后以核酸杂交法筛选所构建的cDNA文库,进而对阳性克隆的cDNA片段进行序列分析,也将此方法称为动物园杂交 (zoo hybrization) 。
3、用RNA剪接分析法确定基因编码序列通常情况下,选择性剪接的转录产物可以通过基因表达序列标签(expression sequence tag, EST)的比较进行鉴定,但这种方法需进行大量的EST序列测 定;同时由于大多数EST文库来源于非常有限的组织,故组织特异性剪接变异体也很可能丢失。 目前,高通量分析RNA剪接的方法主要有3种:①基于DNA芯片的分析法:常用的是代表外显子的 DNA芯片或外显字/外显子交界的DNA片段芯片;②交联免疫沉淀法:用紫外线将蛋白质和RNA交联在一起,然后用特异性抗体将蛋白质-RNA复合物沉淀,通过分析蛋白质结合的RNA序列,便可确 定RNA的剪接位点;③体外报告基因测定法:即将报告基因克隆到载体中,使RNA剪接作为活化报告基因的促进因素,通过分析报告基因的表达水平,即可推测克隆片段的RNA剪接情况,以此为线索便可分析基因的编码序列。
启动子的确定主要采用生物信息学、启动子克隆法和核酸蛋白质相互作用法
编辑分析启动子结构对于研究基因表达调控具有重要意义。研究启动子结构的方法首先可利用生物信息学方法预测启动子,其次可采用传统的启动子克隆法,还可以采用核酸与蛋白质相互作用的方法 进行研究。
1、用生物信息学预测启动子 采用生物信息学方法预测启动子结构特征为后续的启动子克隆 及深入研究提供理论支撑。
(1)用启动子数据库和启动子预测算法定义启动子:由于启动子通常涉及基因的上游区域,含有调控基因适度活化或抑制的信息,因此,在定义启动子或预测分析启动子结构时应包括启动子区域的3个部分:①核心启动子(corepromoter);②近端启动子(proximal promoter):含有几个调控元件的区域,其范围一般涉及转录起点(transcription start site, TSS)上游几百个碱基;③远端启动子(sital promoter): 范围涉及TSS上游几千个碱基,含有增强子和沉默子等元件。
(2)预测启动子的其他结构特征:启动子区域的其他结构特征包括GC含量、CpG比率、转录因子结合位点、碱基组成及核心启动子元件等。大约70%以上哺乳类动物基因5'-区都含有CpG岛,常与启动子序列重叠或交叉覆盖,故可用于鉴定启动子。也可以根据始祖启动子与mRNA转录本之间的相似性鉴定启动子。
用于启动子预测的数据库有多个,例如,真核启动子数据库(eukaryotic promoter database, EPD)主要预测真核RNA聚合酶Ⅱ型启动子,数据库中的所有启动子数据信息都经过实验证实;转录调控区数据库(transcription regulatory region database, TRRD)的数据来源于已发表的科学论文。这些数据库主要通过计算机识别、判断及分析,在数据库中寻找启动子的特异性特征结构。
2、用PCR结合测序技术分析启动子结构 该方法最为简单和直接,即根据基因的启动子序列,设计一对引物,然后以PCR法扩增启动子,经测序分析启动子序列结构。
3、用核酸-蛋白质相互作用技术分析启动子结构 足迹法(footprinting)用于分析启动子中潜在的调节蛋白结合位点,利用DNA电泳条带连续性中断的图谱特点判断与蛋白质结合的DNA区域,它是研究核酸-蛋白质相互作用的方法,而不是专门用于研究启动子结构的方法,足迹法需要对被检DNA进行切割,根据切割DNA试剂的不同,足迹法可分为酶足迹法和化学足迹法。
(1)用核酸酶进行足迹分析:酶足迹法(enzymatic footprinting)是利用DNA酶处理 DNA-蛋白质复合物,然后通过电泳分析蛋白质结合序列。常用的酶有DNA酶I(DNase I) 和核酸外切酶Ⅲ。
DNase I足迹法的基本原理:将可能含有目的启动子序列的双链DNA片段进行单链末端标记,然后与细胞核抽提物进行体外结合反应,进而经DNase I随机切割,从而产生一系列长短不同的DNA片段,最后经变性聚丙烯酰胺凝胶电泳分离,形成仅相差一个核苷酸的一系列DNA条带。由于DNA结合蛋白可保护其结合的DNA序列不受DNase I的酶切消化,从而在凝胶电泳的感光胶片上出现无条带的空白区域,该现象类似蛋白质在DNA上留下的足迹。通过对空白区域相应的DNA进行克隆和测序,并对照未经结合反应的DNA 序列标志,即可鉴定蛋白质结合区的DNA之精确序列。
核酸外切酶Ⅲ足迹法的基本原理类似 DNase I足迹法,即利用核酸外切酶Ⅲ的3'→5'外切酶活性,从3'-末端切割双链DNA,从而确定蛋白质在DNA上的结合位点。
(2) 用化学试剂进行足迹分析:化学足迹法(chemical footprinting )是利用能切断DNA骨架的化 学试剂处理DNA-蛋白质复合物,由于化学试剂无法接近结合了蛋白质的DNA区域,因此在电泳上形成空白区域的位置就是DNA 结合蛋白的结合位点。最常用的化学足迹法是经自由基足迹法 (hydroxyl radical footprinting )。
羟自由基足迹法利用胫自由基攻击DNA分子表面的脱氧核糖骨架,若DNA结合蛋白将脱氧核糖遮盖,则自由轻基无法靠近,于是便可在凝胶电泳中出现缺失条带的现象。由于羟自由基分子量小,不受本身空间位阻的影响,相对于DNase I和核酸外切酶皿足迹法而言,羟自由基足迹法产生的足迹更小,更有利于确定蛋白质在DNA上的结合位点。
还可用电泳迁移率变动分析(electrophoretic mob山ty shift assay, EMSA)和染色质免疫沉淀(chromatin immuno-precipitation , ChIP)技术鉴定启动子。由于EMSA和 ChIP均只能确定DNA序列中含有核蛋白结合位点,故尚需结合DNA足迹实验和DNA测序等技术来确定具体结合序列。
转录起始点的确定采用生物信息学、直接克隆测序法和5'-RACE法
编辑在原核或真核生物,RNA聚合酶通过识别和结合启动子而在基因的转录起点(TSS)启动基因的转录。此处主要介绍分析真核生物基因TSS的技术。
1、用数据库搜索TSS 目前,数据库巳成为搜索TSS的重要工具。利用对寡核苷酸帽法构建的全长cDNA文库5'-末端测序所得的数据信息建立了一个TSS数据库(database of transcription start sites, DBTSS), 并在此基础上,通过将寡核苷酸帽法和大量平行测序技术相结合开发了一种TSS测序法,从而实现了一次测试可产生1×l07个TSS的数据。由此可见,利用数据库资源可以为基因TSS的鉴定提供重要参考。
2、用cDNA克隆直接测序法鉴定TSS 最早对TSS的鉴定方法就是直接对cDNA克隆进行测序分析。以mRNA为模板,经逆转录合成cDNA第一链,同时利用逆转录酶的末端转移酶活性,在cDNA第一链的末端加上poly C尾,并以此引导合成cDNA第二链。将双链cDNA克隆于适宜载体,通过对克隆cDNA的5'-末端进行测序分析即可确定基因的TSS序列。该方法比较简单,尤其适于对特定基因TSS的分析。但该方法依赖于逆转录合成全长cDNA, 一旦cDNA的5'-末端延伸不全,或在逆转录之前或过程中mRNA的5'-末端出现部分降解,便可导致5'-末端部分缺失,从而影响对TSS的序列测定。
3、用5'-cDNA末端快速扩增技术鉴定TSS 5'-cDNA末端快速扩增技术(5'-rapid amplification of cDNA end, 5'-RACE)是一种基于 PCR从低丰度的基因转录本中快速扩增cDNAS'-末端的有效方法。以下简要介绍一种利用高特异性5'-RACE法鉴定TSS的技术:①用碱性磷酸酶去掉总RNA中裸露的5,-磷酸基团;②用烟草酸焦磷酸酶去掉mRNA的5'-帽子结构,保留一个磷酸基团;③用T4 RNA连接酶将5'-RACE适配体(5'-RACE adapter)连接到去帽mRNA的5'-末端;④以上述带有5'-RACE适配体的mRNA为模板,用逆转录酶和随机寡核昔酸引物进行逆转录合成cDNA;⑤巢式PCR反应:先用下游外侧基因特异性引物(gene specific primer 1, GSPl)和5'-RACE外侧引物进行外侧PCR反应;然后再使用下游内侧基因特异性引物(GSP2)和5'-RACE内侧引物进行内侧PCR反应;⑥通过对最终的PCR产物直接进行DNA测序或先进行DNA克隆后再测序,从而明确特定基因的TSS序列。
在5'-RACE的基础上,通过在转录本5'-末端引入特殊的Ⅱ型限制性内切酶识别位点,可将多个5'-末端短片段串联在一起,进而通过对串联片段的一次测序可获得多个基因的TSS序列信息。常用的技术包括5'-末端基因表达系列分析(5'-end serial analysis of gene expression, 5'-SAGE)和帽分析基因表达(cap analysis gene expression, CAGE)技术。
其他顺式作用元件的确定
编辑顺式作用元件(cis-acting element) 指存在于基因非编码序列中,能影响编码基因表达的序列。 除上文所描述的顺式作用元件外,增强子、沉默子、绝缘子等都可以参与基因表达调控,因发挥重要的调控作用而被广泛关注。
增强子指能增加同它连锁的基因转录效果的 DNA 序列。增强子是通过启动子来增加转录的。有效的增强子可以位于基因的5'-端,也可位于基因的3'-端,有的还可位于基因的内含子中。增强子 的效应很明显,一般能使基因转录效果增加10~200倍,有的甚至可以高达上千倍。例如,人珠蛋白基因的表达水平在巨细胞病毒(cytomegalovirus, CMV) 增强子作用下可提高600~1000倍。增强子的作用同增强子的方向(5'→3'或3'→5')无关,甚至远离靶基因达几千kb也仍有增强作用。常用于鉴定增强子的方法包括染色质免疫共沉淀技术(ChIP) 结合测序技术(ChIP-seq)和位点特异性整合荧光激活细胞分选测序技术(site-specific integration fluorescence-activated cell sorting followed by sequencing, SIF-seq)分析法。
沉默子是基因的负调控元件。真核细胞中沉默子的数量远远少于增强子。沉默子的 DNA 序列被调控蛋白质结合后阻断了转录起始复合物的形成或活化,使基因表达活性关闭。绝缘子(insulator)是一类特殊的顺式作用元件,它不同于增强子,其功能是阻止激活或阻遏作用在染色体上的传递,使染色质的活性限定于结构域之内。如果将一个绝缘子置于增强子和启动子之间,它能阻止增强子对启动子的激活。另外,如果一个绝缘子在活性基因和异染色质之间,则可以保护该基因免受异染色质化而失活。这些性质说明绝缘子可能影响染色质的组织结构。
近几年来,利用染色质免疫共沉淀技术、染色体构象捕获(chromosome conformation capture, 3 C) 等表观遗传学技术,结合芯片或新一代测序技术等高通量技术平台,以及生物信息学分析手段来鉴定这些具有调节基因表达的顺式作用元件,已经成为后基因时代的研究热点和发展趋势。
检测基因的拷贝数是了解基因表达丰度的重要因素
编辑分析某种基因的种类及拷贝数,实质上就是对基因进行定性和定量分析,常用的技术包括 DNA 印迹 (Southern 印迹)、实时定量 PCR 技术等。DNA 印迹是根据探针信号出现的位置和次数判断基因的拷贝数。一般情况下,DNA 印迹可以准确地检测位于基因组不同位置上的相同拷贝基因,但如果基因的多个拷贝成簇地排列再基因组上,则应配合DNA测序进行分析。DNA印迹除了作为基因拷贝数的检测方法外,还常用于基因定位、基因酶切图谱、基因突变和基因重排等分析。实时定量PCR 是通过被扩增基因在数量上的差异推测模板基因拷贝数的异同。DNA测序是最精确的鉴定基因拷贝数的方法。
分析基因表达的产物可采用组学方法和特异性测定方法
编辑基因表达产物包括RNA和蛋白质/多肽,因此分析基因表达可以从RNA和蛋白质/多肽水平上进行。 在1968年中心法则确立前后的数年间,只能通过测定代谢酶活性,或采用核素标记结合原位杂交、凝胶电泳、放射自显影分析基因表达。20世纪70年代中期以后,RNA印迹(1977年)和蛋白质印迹(1979年)成为分析特异基因表达的常规技术。DNA克隆技术的诞生(1973年)推动了基因组DNA和cDNA的分离与鉴定;1980—1990年间,积累了大量EST;1990年代初,各种DNA、EST、mRNA数据库应运而生。随后,PCR (1986年),特别是实时定量PCR与数据库检索相结合,通过合成特异引物检测基因表达几乎取代了先前的RNA印迹。随着人类基因组测序的完成,为了满足基因功能诠释和从“ 组学”水平揭示基因表达谱的需要,各种生物芯片(包括核酸和蛋白质芯片)技术应运而生,结合20世纪80~90年代建立的转基因、基因敲除/敲入技术,基因表达及功能分析技术日趋成熟。
通过检测RNA在转录水平分析基因表达
编辑根据分析方法的原理和功能特性,可将基因转录水平分析分为封闭和开放性系统研究方法。封闭性系统研究方法(如DNA芯片、RNA印迹、实时RT-PCR等)的应用范围仅限于已知基因。开放性系统研究方法(如差异显示PCR、双向基因表达指纹图谱、分子索引法、随机引物 PCR 指纹分析等)可用于发现和分析未知基因。此处主要介绍常用的针对已知基因的转录水平分析技术。
1、用核酸杂交法检测RNA表达水平 核酸分子杂交法是目前生物化学及分子生物学研究领域应用非常广泛的技术之一,是定性或者定量特异性检测RNA序列片段的有效工具。
(1)用RNA印迹分析RNA表达:RNA印迹,也称Northern印迹,被广泛应用于RNA表达分析,并作为鉴定RNA转录本、分析其大小的标准方法。尽管RNA印迹并不适合高通量分析,但对于那些通过差异显示RT-PCR或DNA芯片等技术获得的差异表达的RNA,可用RNA印迹来确证;对于新发现的cDNA序列,以其为探针对组织或细胞的RNA样品进行RNA印迹分析,可确定与之互补的RNA真实存在。
(2)用核糖核酸酶保护实验分析RNA水平及其剪接情况:RNA酶保护实验(ribonuclease protection assay , RPA)是一种基于杂交原理分析RNA的方法,既可进行定量分析,又可研究其结构特征。RPA的原理如下:用含特定DNA序列的质粒为模板,经体外转录,制备RNA探针;将标记的RNA探针与样品RNA杂交后,经只水解单链RNA的RNA酶处理,即可去除游离探针及双链RNA中 的单链区域,而使杂交双链RNA受到保护不被消化。回收杂交双链并进行变性聚丙烯酰胺凝胶电泳后,通过检测探针标记物便可 显示对应于探针大小的RNA片段。
RPA技术可对RNA分子的末端以及外显子/内含子的交界进行定位,确定转录后RNA的剪接途径。 此外,RPA还可用于特定RNA的丰度分析。与RNA印迹相比,RPA的灵敏度和分析效率更高,该方法可在一次实验中同时分析几种mRNA,但因每一个探针的实验条件需认真优化,因此这一方法不适于高通量分析。
(3)用原位杂交进行RNA区域定位:原位杂交(in situ hybridization, ISH)是通过设计与目标RNA 碱基序列互补的寡核苷酸探针,利用杂交原理在组织原位检测RNA的技术,其可对细胞或组织中原位表达的RNA进行区域定位,同时也可作为定量分析的补充。
2、用PCR技术检测RNA表达水平 PCR 技术是目前生物化学与分子生物学 领域应用最为便捷、广泛的技术,可快速对RNA分子进行定量或者定性检测。
(1)用逆转录PCR进行RNA的半定量分析:RT-PCR一般用于RNA的定性分析;如果设置阳性参照,则可对待测RNA样品进行半定量分析(即对基因的相对表达水平进行比较)。
(2)用实时定量PCR进行RNA的定量分析:实时定量PCR是定量分析RNA的最通用、最快速、最简便的方法,该方法是对PCR反应进行实时监测,具有很高的灵敏度和特异性。
3、用基因芯片和高通量测序技术分析RNA表达水平 基因芯片和高通量测序技术的应用大大加速了揭示基因组、转录组结构与功能的步伐,是目前宏观分析RNA表达的有效技术手段。
(1) 基因芯片已成为基因表达谱分析的常用方法:目前,基因芯片技术巳广泛应用于基因表达谱分析,主要采用cDNA芯片,其便于对不同状态(如生理和病理条件)下的基因表达谱进行比较,揭示转录组差异表达的规律,对探索发病机制、评价治疗效果、筛选药物靶标具有重要意义。
(2)用循环芯片测序技术分析基因表达谱:运用循环芯片测序技术,可对基因表达谱进行高通最分析,一次可完成几十万到几百万个DNA分子片段的序列测定,从而快速获得转录组或基因组的全貌。除用于DNA测序外,循环芯片测序技术还广泛应用于基因组分析的各个方面:在DNA水平上,可以大规模地分析基因组甲基化、筛选突变基因、检测基因多态性;在RNA水平上,可以对RNA片段进行扫描、定量与鉴定,对全基因组进行广谱表达研究等。循环芯片测序技术的另一个广泛应用领域是小分子RNA或非编码RNA的研究。
通过检测蛋白质/多肽而在翻译水平分析基因表达
编辑蛋白质/多肽是结构基因表达的最终产物,其质和量的变化直接反映了基因的功能。以下简要介绍几种检测蛋白质/多肽的技术。
1、用蛋白质印迹技术检测蛋白质/多肽 该技术需要将蛋白质/多肽转移到固相支待物上进行检测。
2、用酶联免疫吸附实验分析蛋白质/多肽 与蛋白质印迹相似,酶联免疫吸附实验(ELISA)也是一种建立在抗原-抗体反应基础上的蛋白质/多肽分析方法,其主要用于测定可溶性抗原或抗体,该方法需要将已知抗原或抗体吸附于固相载体(如聚苯乙烯微量反应板)表面,使抗原-抗体反应在固相表面进行。常用的 ELISA 方法包括双抗体夹心法、间接法、酶联免疫斑点实验(ELISPOT)以及生物素-亲和素系统-ELISA (biotin avidin system ELISA, BAS-ELISA)。
3、用免疫组化实验原位检测组织/细胞表达的蛋白质/多肽 包括免疫组织化学 (immunohistochemistry) 和免疫细胞化学(immunocytochemistry) 实验,两者原理相同,都是用标记的抗体在组织/细胞原位对目标抗原(目标蛋白质/多肽)进行定性、定量、定位检测。 常用技术包括酶免疫组化(酶标记)、免疫荧光组化(荧光标记,可用荧光显微镜或激光共聚焦显微镜进行观察)、免疫金组化(胶体金颗粒标记)、免疫电镜技术(铁蛋白、胶体金或过氧化物酶标记)等。
4、用流式细胞术分析表达特异蛋白质的阳性细胞 流式细胞术(flow cytometry)通常利用荧光标记抗体与抗原的特异性结合,经流式细胞仪分析荧光信号,从而根据细胞表达特定蛋白质的水平对某种蛋白质阳性细胞(即特异基因表达的细胞)作出判断。流式细胞术既可检测活细胞,也可检测用甲醒固定的细胞,被广泛用于细胞表面和细胞内分子表达水平的定量分析,并能根据各种蛋白质的表达模式区分细胞亚群。此外,流式细胞术可使用多种荧光标记的抗体同时对多个基因产物进行标记和监测,是对细胞进行快速分析、分选、特征鉴定的一种有效方法。
5、用蛋白质芯片分析蛋白质/多肽表达水平 用蛋白质芯片分析蛋白质/多肽的表达谱:运用蛋白质芯片可高通量分析蛋白质/多肽的表达和功能。根据制作方法和用途不同,可将其分为蛋白质检测和功能芯片两大类。蛋白质检测芯片包括抗体芯片、抗原芯片、配体芯片等,它是将具有高亲和力的特异性探针分子(如单克隆抗体)固定在基片上,用以识别生物样品溶液中的目标多肽;蛋白质功能芯片可用来研究蛋白质修饰、蛋白质-蛋白质/蛋白质-DNA/蛋白质-RNA,以及蛋白质与脂质、蛋白质与药物、酶与底物、蛋白质-小分子等的相互作用。
与基因芯片类似,蛋白质芯片可用于检测组织/细胞来源的样品中蛋白质的表达谱;其精确程度、信息范畴取决于芯片上已知多肤的信息多寡。由于多肽合成昂贵,蛋白质来源受限,加之蛋白质操作技术难,使蛋白质芯片的应用受到限制。
6、双向电泳高通量分析蛋白质表达谱 用双向电泳分析蛋白质/多肽表达谱:双向电泳可同时分离成百上千的蛋白质。电泳结果经染色后,既可对不同样品中蛋白质的表达谱进行比较;还可以从凝胶中将特定的蛋白质点切下,经胰蛋白酶消化后得到短肽片段,利用质谱技术进行定性分析,对差异表达的蛋白质进行鉴定。