数据库|次级代谢数据库antiSMASH

The antiSMASH database version 2: a comprehensive resource on secondary metabolite biosynthetic gene clusters11.501Nucleic Acids Res . 2019 Jan 8;47(D1):D625-D630. doi: 10.1093/nar/gky1060.

Abstract

Natural products originating from microorganisms are frequently used in antimicrobial and anticancer drugs, pesticides, herbicides or fungicides. In the last years, the increasing availability of microbial genome data has made it possible to access the wealth of biosynthetic clusters responsible for the production of these compounds by genome mining. antiSMASH is one of the most popular tools in this field. The antiSMASH database provides pre-computed antiSMASH results for many publicly available microbial genomes and allows for advanced cross-genome searches. The current version 2 of the antiSMASH database contains annotations for 6200 full bacterial genomes and 18,576 bacterial draft genomes and is available at https://antismash-db.secondarymetabolites.org/.

什么是次级代谢

次级代谢产物是指生物生长到一定阶段后通过次级代谢合成的分子结构十分复杂、对该生物无明显生理功能，或并非是该生物生长和繁殖所必需的小分子物质，如抗生素、毒素、激素、色素等。不同种类的生物所产生的次级代谢产物不相同，它们可能积累在细胞内，也可能排到外环境中。

antiSMASH数据库介绍

antiSMASH(http://antismash.secondarymetabolites.org/)旨在分析基因组的次级代谢产物合成基因簇，包含细菌、真菌和植物。可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测；源于微生物的天然产品经常用于抗菌和抗癌药物、杀虫剂、除草剂或杀菌剂。自2011年首次发布以来，antiSMASH已成为次级代谢物基因组挖掘的标准工具，并且是目前使用最广泛的工具。2019年初，antiSMASH数据库也已经更新到第2版了，新版收录了6200个细菌基因组完成图和18576个草图基因组的注释，提供了更新的SANDPUMA检测规则、ClusterBlast数据库链接、TTA密码子预测、NRPS-A域预测、萜类的分类以及MIBiG的改进链接。

antiSMASH使用基于规则聚类检测，通过核心生物合成酶来鉴定45种不同类型的次级代谢产物生物合成途径。对于非核糖体肽合酶（nonribosomal peptide synthases）、I型聚酮化合物（type I polyketides）、萜类（terpenes）、羊毛硫肽（lanthipepteptides）、硫肽（thiopeptide），半乳糖肽（sactipepteptides）和套索肽（lassopepteptes），antiSMASH还提供了对它们生物合成基因簇（BGC）产物的更详细的预测。antiSMASH使用内置的ClusterBlast算法，将识别的目标簇与antiSMASH数据库中已知簇进行比较；KnownClusterBlast算法将识别的目标簇与MIBiG数据库中已知簇进行比较。直系同源组（smCoG）分类的次级代谢产物簇用于为预测的基因簇中的基因产物分配功能。

在线次级代谢预测步骤

3.1选择细菌或者真菌

3.2 填写邮箱地址，上传gbk格式文件，提交

3.3 提交完，根据基因组大小，大概至少一个小时即可收到返回结果的邮件。

3.4打开结果连接，可以看到如下界面

说明

Overview所在行：1.1表示基因组第1个染色体上的第1个cluster，1.2表示基因组第1个染色体上的第2个cluster；以此类推；

下面的表格总览说明（按列）：

1. cluster名称，对应于结果文件夹中*region0*gbk；

2．antiSMASH自定义的一些缩写来表示不同类型的次级代谢产物簇；

3，4．cluster的起始终止位置；

5．最相似的已知簇；

6．次级代谢产物；

7．相似性值

3.5右上角下载所有结果

结果文件说明

index.html：antiSMASH生成的交互式网页报告，包含了本次注释结果的大部分详细信息；

clusterblastoutput.txt：基因组与antiSMASH基因簇数据集的比对结果；

clusterblast（文件夹）：以单个文件展示鉴别出的每个基因簇的简要内容；

knownclusterblastoutput.txt：基因组与MIBiG数据库中的已知基因簇的blast比对结果；

knownclusterblast（文件夹）：以单个文件展示鉴别出的每个基因簇的简要内容；

subclusterblastoutput.txt：基因组与已知负责合成前体物质的子簇的比对结果；

*.gbk：以gbk格式展示基因组中所有基因簇及基因信息；

*region0*gbk：以gbk格式，将每个基因簇的内容单独展示；

css、images、js、svg等其它文件夹及文件：主要为网页版报告的配置文件

本地化安装antiSMASH

4.1 安装步骤

antiSMASH作为该领域最流行的工具之一，既是数据库也是软件，官方安装详细文档(https://docs.antismash.secondarymetabolites.org/install/)

安装方法有多种，其中推荐使用Bioconda进行安装，方便快捷。antiSMASH的这点非常好，将其所依赖的环境、模块及数据库打包在Bioconda里面了，并且也保持一直在更新。

#首先需要保证本地安装了 conda，例如 miniconda

#https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/

#加载 miniconda 环境变量后，使用 conda 中添加 biopython，若已存在则可跳过

conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda

#根据官方文档，在 conda 中创建 antismash 环境并下载安装 antiSMASH

conda create -n antismash antismash
source activate antismash
download-antismash-databases
source deactivate antismash

#若中间没断开没报错，则 antiSMASH可以正常运行了

#运行前记得首先加载 miniconda 环境变量（可在 ~/.bashrc 中设置自动加载）

#使用“source activate”加载 antismash 环境，并简要查看是否可以正常运行

source activate antismash
antismash -h

#运行完时记得“source deactivate”退出antismash 环境

4.2使用方法

使用“antismash -h”查看帮助，基本信息如下。

此处的antiSMASH版本v5.1.1，以下介绍主要参数。(仅供参考)

--help：帮助选项。

--cpu：antiSMASH运行时的线程数，默认16。

输入文件（基因组数据）：

GenBank、EMBL或FASTA格式的基因组数据。推荐使用GenBank或者EMBL格式的基因组数据，因这两种格式的数据中相较于FASTA文件而言所包含的信息更全面，如包含了CDS区所编码的氨基酸等，结果（如基因序列获取及比对分析等）更准确可靠。

必选参数，基础选项：

--taxon：指明微生物类型，细菌（bacteria）或真菌（fungi）。

可选参数，与antiSMASH的调用算法有关：

--fullhmmer：运行全基因组HMMer分析。

--cassis：使用CASSIS算法预测基因簇边界（仅限真菌）

--cf-borders-only：仅注释现有簇

--cf-create-clusters：寻找额外簇

--clusterhmmer：运行簇的HMMer分析

--smcog-trees：寻找簇的直系同源群

--tta-threshold：运行TTA密码子检测模块。

--cb-general：将预测的簇与antiSMASH现有的簇进行比较。

--cb-subclusters：将已识别的基因簇与已知负责合成前体物质的子簇进行比对。

--cb-knownclusters：将已识别的基因簇与MIBiG数据库中的已知基因簇进行比对。

--asf：运行活性中心（active site）检测模块。

--pfam2go：运行pfam模块

输出选项，与antiSMASH的结果输出有关，请根据需求考虑：

--output-dir：结果输出路径，不指定则默认当前工作路径。

--html-title：自定义输出网页的名字，默认样本名

--html-description：自定义输出网页的描述

基因查找选项（已注释到ORF的文件忽略）

--genefinding-tool：基因预测工具选择

--genefinding-gff3：指定gff3文件的特征

4.3运行：https://docs.antismash.secondarymetabolites.org/command_line/

运行1：Fast run

不加任何参数运行，只运行核心模块等，耗时选项不会运行，因此运行时间很短就可以得到结果。

source activate antismash #加载环境
antismash sequence.gb #运行
source activate antismash #退出环境

结果文件:

运行2：Full-featured run

全部选项都要运行，时间较长

source activate antismash
antismash --cb-general --cb-knownclusters --cb-subclusters --asf --pfam2go --smcog-trees sequence.gb
source activate antismash

左右滑动查看

结果文件：

结果包含参数中各个数据库比对后的结果，如在线预测结果。

下一篇：铁死亡相关基因signature构建预测肝癌总体生存

上一篇：公开数据库纯生信，5+HRDscore