关于生命的起源、进化——从个体到宇宙,生命是如何从无到有,又如何实现了现在的千姿百态——数千年来,这个问题引导着人们无限的遐想与无尽的探索。
由于不同的基因或DNA片段的进化速率存在较大的差异,我们就可以利用这些基因或DNA片段来估算各个分类水平上有机体之间的进化关系。
构建的系统进化树大致可以分为以下几类:
1. 有根树和无根树
基因或有机体的系统发育关系常用有根或者无根的树状结构来表示。前者被称为有根树,后者被称为无根树。这两种树都被称为拓扑结构。有根树包含唯一的节点,将其作为树中所有物种的最近共同祖先。最常用的确定树根的方法是使用一个或多个没有争议的近缘种作为外类群,这个外类群要足够近,以提供足够的信息,但又不能太近以至于和树中的物种相混。把有根树去掉根即成为无根树。一棵无根树在没有其他信息(外类群)或假设(如假设最大枝长为根)时不能确定其树根。无根树是没有方向的,其中线段的两个演化方向都有可能。2. 物种树和基因树
物种树,体现的是一个物种或群体的进化历史,两个物种分歧的时间就是两个物种发生生殖隔离的时间。当利用来自于各个物种的一个同源基因构建系统发育树时,得到的树将不完全等同于物种树,而是基因树。基因树代表的仅仅是单个基因的进化历史。而不是它所在物种的进化历史。物种树和基因树有别,但无论哪种构树,都少不了位点的选择——要得到一个可靠的系统进化树,就要选择大量独立进化(不连锁)的基因位点——到底要使用哪些基因构建物种进化树呢?
直系同源(orthology)在进化上起源于同一个始祖基因并垂直传递。一般在功能上高度保守或相近,甚至于在近缘物种之间可以互相替换。旁系同源(Paralogy)是指同一基因组(或同系物中的基因组)中,由于始祖基因的加倍,而横向产生的同源基因。从定义不难看出,只有直系同源基因代表物种形成事件,因此应当使用直系同源基因而不是旁系同源基因进行系统进化树的构建。选定了作图的数据来源,下一步就是选择用什么样的方法来构树了。这里,就要提到串联法和并联法构建进化树:串联法(Concatenation)是先将不同物种之间的每个单拷贝基因单独进行多序列比对,然后将这些对齐后的单拷贝基因首尾相连串接成一个supergene,最后将这个supergene用于构建系统发育树;并联法(Coalescence)则是先将不同物种之间的每个单拷贝基因单独进行多序列比对,并构建每一个单拷贝基因的基因树,然后将所有单拷贝基因对应的基因树进行合并重构出相应的物种树。目前最常见的构树方法是串联法,并联法作图还比较少见。我们后续会跟大家陆续分享下这两种方法构树过程中的一些细节。除了以上的内容,还有各种各样的问题困扰着进化树的构建,比如:不完全谱系分选(incomplete lineage sorting):由于物种分化时间极其短,使得祖先基因的多态性在分化的物种里随机的固定下来,所以没有任何一个由单个基因构建出来的演化树与物种树完全一致,这种现象,叫做不完全谱系分选。这种现象也普遍存在于近期分化的物种中,由于分化时间较短,这些物种表现出较小的种间遗传距离,在系统进化树上会形成嵌套关系,就不能正确反映物种间的真实进化关系。三联密码子不同位点突变率不一样:核苷酸序列在不同位点有不同的突变速率。编码基因中,密码子第一第二位往往较为稳定,第三位往往变异速率较高。非编码基因因为受到的选择压力一般较小,所以往往可保留更多突变。不同基因以及不同位点的突变速率不同,可能对所推断进化树的稳定性有很大影响。
此外,如何选择适合自己研究的进化树模型,怎样进行建树的操作,如何获得一个美观大方的进化树……相信这里一定有您关心的问题,我们也将在后续的分享中给大家一一道来。