Usearch otu cluster and mapping(OTU聚类和丰度计算)
分析模块,输入每个样品经过Trimmomatic剪切和过滤、FLASH拼接后的FASTA序列文件,运行得到OTU Table文件和OTU代表序列文件。
OTU(Operational Taxonomic Units)是在系统发生学或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,属,种、分组等)设置的同一标志。要了解一个样本测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。通过归类操作,将序列按照彼此的相似性分归为许多小组,一个小组就是一个OTU。可根据不同的相似度水平,对所有序列进行OTU划分,通常在97%的相似水平下的OTU进行生物信息统计分析。
分析模块封装了Usearch软件,具体分析步骤如下所示:
Ÿ Usearch -derep_prefix命令:对优化序列提取非重复序列,便于降低分析中间过程冗余计算量。
Ÿ Usearch -sortbysize命令:去除没有重复的单序列。
Ÿ Usearch -cluster_otus命令:按照97%相似性对非重复序列(不含单序列)进行OTU聚类,在聚类过程中去除嵌合体,得到OTU代表序列文件。
Ÿ Usearch -usearch_global命令:将所有优化序列map至OTU代表序列,选出与OTU代表序列相似性在97%以上的序列,生成OTU Table文件。
输入:
Trimmomatic剪切和过滤、FLASH拼接后的FASTA序列文件。
注:根据需要,在分析模块参数设置界面,动态增加或减少输入文件,并设置对应序列文件的样品名称。
输出:
1、OTU Table表格文件
OTU ID 10 11 12
OTU1 10842 7265 11259
OTU2 6660 5505 7994
OTU3 3212 1769 7230
OTU4 4143 2548 2328
2、OTU代表序列文件
>OTU1
GTGGGGAATATTGGACAATGGGCGCAAGCCTGATCCAGCCATGCCG ……
>OTU2
GTAGGAATCTTCGGCAATGGACGAAAGTCTGACCGAGCAACGCCG ……
>OTU3
GTGGGGAATATTGGACAATGGGCGAAAGCCTGATCCAGCAATGCCG ……
……
分析模块引用了Usearch v8.1.1861软件(http://www.drive5.com/usearch/manual/)。
相关文献如下所示:
USEARCH and UCLUST algorithms:
Edgar,RC (2010) Search and clustering orders of magnitude faster than BLAST, Bioinformatics 26(19), 2460-2461. doi: 10.1093/bioinformatics/btq461
UCHIME algorithm:
Edgar,RC, Haas,BJ, Clemente,JC, Quince,C, Knight,R (2011) UCHIME improves sensitivity and speed of chimera detection, Bioinformatics doi: 10.1093/bioinformatics/btr381 [PMID 21700674].
UPARSE algorithm:
Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].