进化树专题(七)| 进化树与不完全谱系分选

在第一篇分享中,我们介绍过进化树的类型有基因树和物种树的划分进化研究专题(一) | 我有一棵树 穿越数万年。研究中发现,没有任何一个由单个基因构建出来的演化树与物种树完全一致。造成这一情况有一个非常重要的原因——不完全谱系分选incomplete lineage sorting,即由于物种分化时间极其短,使得祖先基因的多态性在分化的物种里随机的固定下来。这种现象也为构建系统演化树带来了极大的障碍。

为解决此问题,研究人员采取了一种新的计算方法,提出基于溯祖理论利用综合的基因树来推断全基因组水平的物种树的软件:ASTRID

ASTRID的论文2015年发表后,已经被引用了83次


下载:

https://github.com/pranjalv123/ASTRID-1
依赖包和环境:
CMake (https://cmake.org/)
Boost (http://www.boost.org/)
DendroPy version 4 or greater https://pythonhosted.org/DendroPy/
A recent C++ compiler
下载并安装
tar zxvf ASTRID-2_2_1-linux.tar.gz
cd ASTRID-2_2_1-linux
chmod +x ASTRID


使用:

ASTRID [-h] -i INPUT [-b --bsfile BSFILE] [--bslist BSLIST [BSLIST ...]] [-r --bsreps BSREPS] [-o OUTPUT] [-m METHOD] [-c CACHE] [--taxon-cutoff TAXON_CUTOFF]
ASTRID: Accurate Species TRees from Internode Distances.
   optional arguments:
-h, --help            输出帮助文件
-i INPUT     File containing gene trees as newick strings
-b --bsfile BSFILE     每个基因bootstrap构建的进化树;一个基因一行
-r --bsreps BSREPS   自举次数
-o OUTPUT    输出物种进化树
-m METHOD    基于距离的方法使用 (默认: fastme 其他:bionj)
-c CACHE           输出样品之间的距离矩阵
文件格式
input:

每个基因的进化关系; 一个基因一行
bsfile:

每个基因的自举的进化关系; 一个基因一个文件
/path/RAxML_bootstrap.gene1 文件格式

gene1的自举后的进化关系


输出:

output:
(((((samp1,6),(((('samp2',(73,'samp3')),((((samp4,samp5),(((samp6,samp7),(((samp8,samp9),...,samp9));
物种的进化关系


程序使用:

ASTRID -i number.gene.tre -r 1000 -b number.gene.bootstrap.tre.lst -o ASTRID.tre
计算并联树的初始概率值
java -jar astral.5.6.3.jar -i number.gene.tre -q ASTRID.tre > ASTRID.final.tre
最终进化树:

参考:
https://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-16-S10-S3
分享