生物化学与分子生物学/基因组学

组学与系统生物医学 - 基因组学 - 转录物组学 - 蛋白质组学 - 代谢组学 - 其他组学 - 系统生物医学及其应用
基因组(genome)是基因(gene)和染色体(chromosome)两个名词的组合,指的是一个生命单元所拥有的全部遗传物质(包括核内和核外遗传信息),其本质就是DNA/RNA。基因组学(genomics)是阐明整个基因组结构、结构与功能关系以及基因之间相互作用的科学。根据研究目的不同而分为结构基因组学(structural genomics)、功能基因组学(functional genomics)和比较基因组学(comparative genomics)。结构基因组学通过基因组作图和序列测定,揭示基因组全部DNA序列及其组成;比较基因组学通过模式生物基因组之间或模式生物与人类基因组之间的比较与鉴定,发现同源基因或差异基因,为研究生物进化提供依据;功能基因组学则利用结构基因组学所提供的信息,分析和鉴定基因组中所有基因(包括编码和非编码序列)的功能。近年来,在基因组水平上研究不改变基因组序列而通过表观遗传修饰调控基因或基因组表达的表观基因组学(epigenomics)成为研究热点。

结构基因组学揭示基因组序列信息 编辑

结构基因组学主要通过人类基因组计划(human genome project, HGP)的实施,解析人类自身DNA的序列和结构。研究内容就是通过基因组作图和大规模序列测定等方法,构建人类基因组图谱,即遗传图谱(genetic map)、物理图谱(physical map)、序列图谱(sequence map)和转录图谱(transcription map)。

通过遗传作图和物理作图绘制人类基因组草图 编辑

人染色体DNA很长,不能直接进行测序,必须先将基因组DNA进行分解、标记,使之成为可操作的较小结构区域,这一过程称为作图。HGP实施过程采用了遗传作图和物理作图的策略。

  1. 遗传作图就是绘制连锁图 遗传图谱又称连锁图谱(linkage map)。遗传作图(genetic mapping)就是确定连锁的遗传标志(genetic marker; 或分子标志,molecular marker)位点在一条染色体上的排列顺序以及它们之间的相对遗传距离,用厘摩尔根(centi-Morgan, cM)表示,当两个遗传标记之间的重组值为1%时,图距即为1cM(约为1000kb)。常用的遗传标志有限制性片段长度多态性(restriction fragment length polymorphism, RFLP) 、可变数目串联重复序列(variable number of tandem repeat , VNTR) 和单核苷酸多态性 (single nucleotide polymorphism, SNP) , 其中SNP的精确度最高 (0.5~1.0kb)。
  2. 物理作图就是描绘杂交图、限制性酶切图及克隆系图 物理作图 (physical mapping) 以物理尺度(bp或kb)标示遗传标志在染色体上的实际位置和它们间的距离,是在遗传作图基础上绘制的更为详细的基因组图谱。物理作图包括荧光原位杂交图(fluorescent in situ hybridization map, FISH map; 将荧光标记探针与染色体杂交确定分子标记所在的位置)、限制性酶切图(restriction map ; 将限制性酶切位点标定在 DNA 分子的相对位置)及克隆重叠群图(clone contig map) 等。在这些操作中,构建克隆重叠群图是最重要的一种物理作图,它是在采用酶切位点稀有的限制性内切酶或高频超声破碎技术将 DNA 分解成大片段后,再通过构建酵母人工染色体(yeast artificial chromosome, YAC) 或细菌人工染色体(bacterial artificial chromosome, BAC), 获取含已知基因组序列标签位点 (sequence tagged site, STS) 的 DNA 大片段。STS 是指在染色体上定位明确、并且可用 PCR 扩增的单拷贝序列,每隔 100kb距离就有一个标志。在 STS 基础上构建覆盖每条染色体的大片段 DNA 连续克隆系就可绘制精细物理图。可以说,通过克隆重叠群作图就可以知晓特异 DNA 大片段在特异染色体上的定位,这就为大规模 DNA 测序做好了准备。

通过EST文库绘制转录圈谱 编辑

人类基因组 DNA 中只有约2%的序列为蛋白质编码序列,对于一个特定的个体来讲,其体内所有类型的细胞均含有同样的一套基因组,但成年个体每一特定组织中,细胞内一般只有 10% 的基因是表达的;即使是同一种细胞,在其发育的不同阶段,基因表达谱亦是不一样的。因此,了解每一组织细胞及其在不同发育阶段、不同生理和病理情况下 mRNA 转录情况,可以帮助我们了解不同状态下细胞基因表达情况,推断基因的生物学功能。
转录图谱又称为 cDNA 图或表达图(expression map), 是一种以表达序列标签(expressed sequence tag, EST)为位标绘制的分子遗传图谱。通过从 cDNA 文库中随机挑取的克隆进行测序所获得的部分cDNA 的5'-或 3'-端序列称为 EST,一般长 300~500bp左右。将 mRNA 逆转录合成的 cDNA 片段作为探针与基因组 DNA 进行分子杂交,标记转录基因,就可以绘制出可表达基因的转录图谱。

通过BAC克隆系和鸟枪法测序等构建序列固谱 编辑

在基因作图的基础上,通过 BAC 克隆系的构建和鸟枪法测序(shotgun sequencing) , 就可完成全基因组的测序工作,再通过生物信息学手段,即可构建基因组的序列图谱。
BAC 载体是一种装载较大片段 DNA 的克隆载体系统,用于基因组文库构建。全基因组鸟枪法测 序是直接将整个基因组打成不同大小的 DNA 片段,构建 BAC 文库,然后对文库进行随机测序,最后运用生物信息学方法将测序片段拼接成全基因组序列,此称为基因组组装 (genome assembly)。

比较基因组学鉴别基因组的相似性和差异性 编辑

比较基因组学是在基因组序列的基础上,通过与已知生物基因组的比较,鉴别基因组的相似性和 差异性,一方面可为阐明物种进化关系提供依据,另一方面可根据基因的同源性预测相关基因的功能。比较基因组学可在物种间和物种内进行,前者称为种间比较基因组学,后者则称为种内比较基因组学,两者均采可用 BLAST 等序列比对工具。

种间比较基因组学阐明物种间基因组结构的异同 编辑

种间比较基因组学通过比较不同亲缘关系物种的基因组序列,可以鉴别出编码序列、非编码(调控)序列及特定物种独有的基因序列。而对基因组序列的比对,可以了解不同物种在基因构成、基因顺序和核昔酸组成等方面的异同,从而用于基因定位和基因功能的预测,并为阐明生物系统发生进化关系提供数据。

种内比较基因组学阐明群体内基因组结构的变异和多态性 编辑

同种群体内各个个体基因组存在大量的变异和多态性,这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物、环境因素等不同反应的分子遗传学基础。例如,SNP最大限度地代表了不同个体之间的遗传差异,鉴别个体间 SNP差异可揭示不同个体的疾病易感性和对药物的反应 性,有利于判定不同人群对疾病的易感程度并指导个体化用药。

功能基因组学系统探讨基因的活动规律 编辑

功能基因组学的主要研究内容包括基因组的表达、基因组功能注释、基因组表达调控网络及机制 的研究等。它从整体水平上研究一种组织或细胞在同一时间或同一条件下所表达基因的种类、数量、功能,或同一细胞在不同状态下基因表达的差异。它可以同时对多个表达基因或蛋白质进行研究,使得生物学研究从以往的单一基因或单一蛋白质分子研究转向多个基因或蛋白质的系统研究。

通过全基因组扫描鉴定DNA序列中的基因 编辑

这项工作以基因组DNA序列数据库为基础,加工和注释人类基因组的DNA序列,进行新基因预测、蛋白质功能预测及疾病基因的发现。主要采用计算机技术进行全基因组扫描,鉴定内含子与外显子之间的衔接,寻找全长可读框(open reading frame, 0RF) , 确定多肤链编码序列。

通过BLAST等程序搜索同源基因 编辑

同源基因在进化过程中来自共同的祖先,因此通过核苷酸或氨基酸序列的同源性比较,就可以推 测基因组内相似基因的功能。这种同源搜索涉及序列比较分析,NCBI的BLAST程序是基因同源性搜索和比对的有效工具。每一个基因在 GenBank 中都有一个序列访问号(accession number), 在 BLAST界面上输入2条或多条访问号,就可实现一对或多对序列的比对。

通过实验验证基因功能 编辑

可设计一系列的实验来验证基因的功能,包括转基因、基因过表达、基因敲除、基因敲减或基因沉默等方法,结合所观察到的表型变化即可验证基因功能。由于生命活动的重要功能基因在进化上是保守的,因此可以采用合适的模式生物进行实验。

通过转录物组和蛋臼质组描述基因表达模式 编辑

基因的表达包括转录和翻译过程,研究基因的表达模式及调控可借助转录物组学和蛋白质组学相关技术与方法进行。

ENCODE计划旨在识别人类基因组所有功能元件 编辑

HGP提供了人类基因组的序列信息(符号),并定位了大部分蛋白质编码基因。如何解密这些符号代表的意义,特别是还有98%左右的非蛋白质编码序列的功能,仍然是一项十分繁重的任务。

ENCODE计划是HGP的延续与深入 编辑

若要全面理解生命体的复杂性,必须全面确定基因组中各个功能元件及其作用。在此背景下,美国于2003年9月启动了DNA元件百科全书(the Encyclopedia of DNA Element, ENCODE)计划。 ENCODE计划的目标是识别人类基因组的所有功能元件,包括蛋白质编码基因、各类RNA编码序列、转录调控元件以及介导染色体结构和动力学的元件等,当然还包括有待明确的其他类型的功能性序列, 其目的是完成人类基因组中所有功能元件的注释,帮助我们更精确地理解人类的生命过程和疾病的发生、发展机制。

ENCODE计划已取得重要阶段性成果 编辑

根据ENCODE计划联盟有关1640组覆盖整个人类基因组的数据分析报告认为:人类基因组的大部分序列(80.4%)具有各种类型的功能,而并非之前认为的大部分是“垃圾”DNA; 人类基因组中有399124个区域具有增强子样特征,70292个区域具有启动子样特征;非编码功能元件富含与疾病相关的SNP, 大部分疾病的表型与转录因子相关。这些发现有助于深入理解基因表达调控的规律,并发现和鉴定出一大批与疾病相关的遗传学风险因子。