The antiSMASH database version 2: a comprehensive resource on secondary metabolite biosynthetic gene clusters11.501Nucleic Acids Res . 2019 Jan 8;47(D1):D625-D630. doi: 10.1093/nar/gky1060.
Abstract
Natural products originating from microorganisms are frequently used in antimicrobial and anticancer drugs, pesticides, herbicides or fungicides. In the last years, the increasing availability of microbial genome data has made it possible to access the wealth of biosynthetic clusters responsible for the production of these compounds by genome mining. antiSMASH is one of the most popular tools in this field. The antiSMASH database provides pre-computed antiSMASH results for many publicly available microbial genomes and allows for advanced cross-genome searches. The current version 2 of the antiSMASH database contains annotations for 6200 full bacterial genomes and 18,576 bacterial draft genomes and is available at https://antismash-db.secondarymetabolites.org/.
次级代谢产物是指生物生长到一定阶段后通过次级代谢合成的分子结构十分复杂、对该生物无明显生理功能,或并非是该生物生长和繁殖所必需的小分子物质,如抗生素、毒素、激素、色素等。不同种类的生物所产生的次级代谢产物不相同,它们可能积累在细胞内,也可能排到外环境中。
antiSMASH使用基于规则聚类检测,通过核心生物合成酶来鉴定45种不同类型的次级代谢产物生物合成途径。对于非核糖体肽合酶(nonribosomal peptide synthases)、I型聚酮化合物(type I polyketides)、萜类(terpenes)、羊毛硫肽(lanthipepteptides)、硫肽(thiopeptide),半乳糖肽(sactipepteptides)和套索肽(lassopepteptes),antiSMASH还提供了对它们生物合成基因簇(BGC)产物的更详细的预测。antiSMASH使用内置的ClusterBlast算法,将识别的目标簇与antiSMASH数据库中已知簇进行比较;KnownClusterBlast算法将识别的目标簇与MIBiG数据库中已知簇进行比较。直系同源组(smCoG)分类的次级代谢产物簇用于为预测的基因簇中的基因产物分配功能。
3.1选择细菌或者真菌
说明
Overview所在行:1.1表示基因组第1个染色体上的第1个cluster,1.2表示基因组第1个染色体上的第2个cluster;以此类推;
index.html:antiSMASH生成的交互式网页报告,包含了本次注释结果的大部分详细信息;
clusterblastoutput.txt:基因组与antiSMASH基因簇数据集的比对结果;
clusterblast(文件夹):以单个文件展示鉴别出的每个基因簇的简要内容;
knownclusterblastoutput.txt:基因组与MIBiG数据库中的已知基因簇的blast比对结果;
knownclusterblast(文件夹):以单个文件展示鉴别出的每个基因簇的简要内容;
subclusterblastoutput.txt:基因组与已知负责合成前体物质的子簇的比对结果;
*.gbk:以gbk格式展示基因组中所有基因簇及基因信息;
*region0*gbk:以gbk格式,将每个基因簇的内容单独展示;
4.1 安装步骤
antiSMASH作为该领域最流行的工具之一,既是数据库也是软件,官方安装详细文档(https://docs.antismash.secondarymetabolites.org/install/)
安装方法有多种,其中推荐使用Bioconda进行安装,方便快捷。antiSMASH的这点非常好,将其所依赖的环境、模块及数据库打包在Bioconda里面了,并且也保持一直在更新。
#首先需要保证本地安装了 conda,例如 miniconda
#https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/
#加载 miniconda 环境变量后,使用 conda 中添加 biopython,若已存在则可跳过
conda config --add channels defaults#根据官方文档,在 conda 中创建 antismash 环境并下载安装 antiSMASH
conda create -n antismash antismash#若中间没断开没报错,则 antiSMASH可以正常运行了
#运行前记得首先加载 miniconda 环境变量(可在 ~/.bashrc 中设置自动加载)
#使用“source activate”加载 antismash 环境,并简要查看是否可以正常运行
source activate antismash#运行完时记得“source deactivate”退出antismash 环境
使用“antismash -h”查看帮助,基本信息如下。
--help:帮助选项。
GenBank、EMBL或FASTA格式的基因组数据。推荐使用GenBank或者EMBL格式的基因组数据,因这两种格式的数据中相较于FASTA文件而言所包含的信息更全面,如包含了CDS区所编码的氨基酸等,结果(如基因序列获取及比对分析等)更准确可靠。
--taxon:指明微生物类型,细菌(bacteria)或真菌(fungi)。
--fullhmmer:运行全基因组HMMer分析。
--cassis:使用CASSIS算法预测基因簇边界(仅限真菌)
--cf-borders-only:仅注释现有簇
--cf-create-clusters:寻找额外簇
--clusterhmmer:运行簇的HMMer分析
--smcog-trees:寻找簇的直系同源群
--tta-threshold:运行TTA密码子检测模块。
--cb-general:将预测的簇与antiSMASH现有的簇进行比较。
--cb-subclusters:将已识别的基因簇与已知负责合成前体物质的子簇进行比对。
--cb-knownclusters:将已识别的基因簇与MIBiG数据库中的已知基因簇进行比对。
--asf:运行活性中心(active site)检测模块。
--pfam2go:运行pfam模块
--output-dir:结果输出路径,不指定则默认当前工作路径。
--html-title:自定义输出网页的名字,默认样本名
--html-description:自定义输出网页的描述
--genefinding-tool:基因预测工具选择
--genefinding-gff3:指定gff3文件的特征
不加任何参数运行,只运行核心模块等,耗时选项不会运行,因此运行时间很短就可以得到结果。
source activate antismash #加载环境运行2:Full-featured run
全部选项都要运行,时间较长
source activate antismash