小基因组,顾名思义,是指基因组大小在10k以上,1M以下的DNA序列,一般包括高等生物的核外基因组,如植物的叶绿体基因组、植物和动物的线粒体基因组等。
这么小的基因组,含有的信息量一定有限吧,能用它来做什么呢?
今天要跟大家分享的,就是这些看似其貌不扬的小基因组在科学研究中是如何发挥自己的大能量。
首先来看看线粒体,这个细胞器堪称生命活动的“能量供给站”,这种存在于大多数细胞中的细胞器,拥有自身的遗传物质和遗传体系,除了为细胞供能之外,线粒体还参与到多种细胞功能过程中,拥有调控细胞生长和细胞周期的能力。
动物的线粒体基因组一般比较小,常见的在15-16kb左右,很少有基因间隔区,所有的基因都不含有内含子。在组分构成上一般含13个蛋白,2个rRNA,22个tRNA,在3’端有一段控制区。
真菌和藻类的线粒体基因组跨度范围比较大,30-120kb之间,重复区域占比较小,但是基因结构比较复杂,会含有多个外显子,研究上注释难度较高。
植物线粒体是线粒体基因组研究中难度最高的,其大小比较大,常在300-1000kb,结构也更类似于真核基因组,有很多的重复序列,组装和注释的难度较高。
动物的线粒体研究难度是比较小的,一般基于NGS的测序数据就可以了。但是真菌、藻类和植物的线粒体较大也较为复杂,建议就要结合Pacbio的数据开展研究了。
再说说植物叶绿体,常见的植物叶绿体基因组大小一般在150-160kb左右,藻类会略小一些,在80-100kb左右,一般由四部分组成,包括LSC和SSC,以及二者之间的两个IR区,含有约85个编码蛋白,8个rRNAs,36个tRNAs。
叶绿体(cp)和线粒体(mt)基因组一般都呈环状, 受限于提取技术,常规方法抽提的DNA中,cpDNA或mtDNA的含量一般在1%-5%左右,这在很大程度上限制了细胞器这种小基因组的研究,由于大量的数据可能产生自核基因组,这就给分析带来了不小的挑战。云生物自主研发的EnrichmentMIT技术就可以将目标基因组的富集效率显著提升,经验证,富集后目标基因组占比可提升至30%以上,最高可达70%。
由于cpDNA和mtDNA都属于较为保守的基因组,编码特征和基因组结构与一些原核生物也很类似,所以分析方法上也比较雷同,常常应用于物种分类和进化、遗传多样性等的研究中。
在获得mtDNA和cpDNA的完整基因组之后,就可以进行相应的基因预测注释了,这里存在一个问题,就是这类小基因组注释的准确性。目前没有很好的软件是专门用于细胞器基因组研究的,因此在线注释平台应用于小基因组的注释往往会产生一些偏差,有一些老师在项目中会发现,基于在线注释工具得到的信息,由于偏差存在会造成数据无法上传NCBI,这就很耽误研究成果的发布。所以在这类小基因组项目中,云生物会为用户提供一对一的生物信息分析,人工进行基因注释矫正,完满解决这一问题。
常规的基因组研究,常常用与挖掘基因组的SNP、InDel及SV等信息,同时,由于cpDNA和mtDNA的基因组保守性,基于比较基因组研究开展物种进化分析和选择压力分析是小基因组测序在基因组层面的一个重要的应用方向。这里面用到比较多的,是共线性分析:共线性是指不同物种染色体上同源基因以相同顺序排列的现象,物种之间的共线性程度,可以作为衡量二者间进化距离的标尺,用于阐明物种间的亲缘关系:
基于cpDNA和mtDNA开展物种进化分析,获得系统进化树。亦可用于选择压力分析,研究物种的进化动力:
云生物还可以为广大科研用户提供形式多样的高级及个性化分析结果,诸如多个物种间的小基因组比较分析:
核心和泛基因组分析:
云生物拥有丰富的细胞器基因组研究经验,除了能够提供高效基因组富集和一对一分析人工注释服务外,还可为客户提供灵活多样的个性化分析定制服务。目前已完成细胞器基因组项目逾100例, 96%以上样本组装可达完成图水平。