基因组计划
目录
基因组计划
基础组计划是科学的努力,最终旨在确定生物体(无论是动物、植物、真菌、细菌、古细菌、原生生物还是病毒)的完整基因组序列,并注释蛋白质编码基因和 其他重要的基因组编码特征。 生物体的基因组序列包括生物体中每个染色体的集体DNA序列。 对于含有单条染色体的细菌,基因组计划旨在绘制该染色体的序列图。 对于人类,其基因组包括 22 对常染色体和 2 条性染色体,一个完整的基因组序列将包含 46 个独立的染色体序列。
人类基因组计划是基因组计划的一个众所周知的例子。
基因组组装
基因组组装是指获取大量短 DNA 序列并重新组装它们以创建 DNA 起源的原始染色体的表示的过程。 在鸟枪法测序项目中,来自一个来源(通常是单个生物体,从细菌到哺乳动物的任何事物)的所有 DNA 首先被分解成数百万个小片段。 然后这些片段由自动测序仪读取。 基因组组装算法的工作原理是获取所有片段并将它们相互对齐,并检测两个短序列或读数重叠的所有位置。 可以合并这些重叠的读数,然后继续该过程。
基因组组装是一个非常困难的计算问题,变得更加困难,因为许多基因组包含大量相同的序列,称为重复序列。 这些重复序列可能有数千个核苷酸长,并且出现在不同的位置,尤其是在动植物的大型基因组中。
生成的(草图)基因组序列是通过组合已排序的重叠群信息,然后使用链接信息创建支架来生成的。 支架沿着染色体的物理图谱定位,形成一条黄金路径。
基因组注释
自 20 世纪 80 年代以来,分子生物学和生物信息学产生了对 DNA 注释的需求。 DNA 注释或基因组注释是识别将生物信息附加到序列的过程,特别是识别基因的位置并确定这些基因的作用。
完成时间
在对基因组进行测序时,通常存在难以测序的区域(通常是具有高度重复 DNA 的区域)。 因此,“已完成”的基因组序列很少是完整的,“工作草案”或“基本完成”等术语已被用来更准确地描述此类基因组计划的状态。 即使已经确定了基因组序列的每个碱基对,仍然可能存在错误,因为 DNA 测序不是一个完全准确的过程。 也有人认为,一个完整的基因组计划应该包括线粒体和(对于植物)叶绿体的序列,因为这些细胞器有自己的基因组。
据经常报道,对基因组进行测序的目的是获取有关该特定基因组序列中完整基因集的信息。 编码基因的基因组比例可能非常小(特别是在人类等真核生物中,编码 DNA 可能仅占整个序列的百分之几)。 然而,并不总是可能(或希望)仅单独对编码区进行测序。 此外,随着科学家更多地了解这种非编码 DNA(通常称为垃圾 DNA)的作用,拥有完整的基因组序列作为背景以了解任何给定生物体的遗传学和生物学将变得更加重要。

在许多方面,基因组计划并不仅限于确定生物体的 DNA 序列。 这些项目还可能包括基因预测,以找出基因在基因组中的位置,以及这些基因的作用。 也可能有相关项目对 EST 或 mRNA 进行测序,以帮助找出基因的实际位置。
历史和技术视角
从历史上看,在对真核生物基因组(例如线虫秀丽隐杆线虫)进行测序时,通常首先绘制基因组图谱以提供一系列跨基因组的界标。 与其一次性对染色体进行测序,不如逐条测序(事先知道该片段在较大染色体上的大致位置)。