高效宏基因组ARGs分析方法简介

ARGs数据库集成:

1:利用CARD及ARDB数据库集成ARGs数据库(包含CARD的2513条蛋白序列及ARDB的7828条序列)

2:去除非ARG的序列

3:去除冗余序列(保留100%同源的序列,此步骤之后仅保留了4401条序列)

4:去除SNP相关的序列

5:获得SARG数据库

6:对SARG数据库进行类型-亚型-参考序列的划分

在数据分析上,研究者开发出了ARGs-OAP流程,有两部分构成(如下图):

1:使用本地计算机对潜在ARGs序列进行预筛选,以减少在线注释的序列文件大小。

2:利用在线平台进行ARG序列注释和分类。

1.png

基于这样的流程构建出的SARGs数据库,其效用如何?利用其ARGs-oap流程开展的抗性基因注释,效果又如何呢?

首先,对研究构建出的SARG数据库进行评估:在对所有序列进行分类和验证后,SARG数据库共含有23个大的ARG类型,共计1227个ARG亚型和4246条参考序列,在ARG亚型中有超过72%的亚型(887种亚型)属于β-内酰胺抗性(共计1497条序列),之后是广谱抗性(935条序列)和氨基糖苷类抗性(275条序列)。数据库统计情况如下图:

2.png


接着,采用模拟数据集评价ARGs-oap流程进行ARG注释的情况:研究评价了数据库完整性、BLASTX使用的特征值(即E值、标识和命中长度)和序列长度对ARGs注释的影响:

利用两个模拟数据集评价数据库完整性的影响——数据集1含有一些ARG集成数据库的序列和一些非arg序列,数据集2除了1的部分外还增加了Swiss-Port中不包含在ARG集成库的ARG序列——集成ARG库对数据集1而言是完整的,对数据集2而言不完整。结果表明,当数据集含有新的ARG序列时,如果识别特征值在60%以上,MCC值(马修斯相关系数)显著降低(下图a,b);在这个临界点,灵敏度也大大下降(图d,e),但是数据库的不完整性对注释的精确度影响不大(图g,h)。

E值等对ARGs注释的影响也进行了评估:结果表明,MCC值和精密度随E值的降低而增加,但灵敏度变化不大(下图)。

3.png

在E值为1e-7,特征临界值60%下评价序列长度对ARG注释的影响:结果显示,当命中长度小于序列长度的85%时,对灵敏度和MCC值的影响很小但当命中长度从85%增加到100%时,灵敏度和MCC值急剧下降,表明如果选择一个更严格的命中长度,研究将丢失更多的ARGs样序列信息。此外,考虑到读长造成的序列长度差异,进一步评估发现,长读取会有较高的MCC及灵敏度——MCC值,灵敏度及精确度在type水平比亚型水平更高。

总的来说,较长的读取长度、较高的同一性和较低的E值降低了干扰率,而较长的序列提高了注释的准确性,引用数据库的完整性对注释结果有显著的影响。整合上述结果,E值为1e-7,识别率为60%是在当前版本的SARG库中进行ARG注释,考虑MCC值、灵敏度和精密度三方面均衡良好的最适宜条件。

利用宏基因组数进行ARGs注释的ARGs-OAP:如前所述,第一步是在用户的本地计算机上使用UBLAST从元组数据集中预先筛选潜在的args序列,然后进行第二步的序列注释,利用在线分析平台上传潜在ARGS序列后进行分类注释。该流程支持多样本分析,并可生成ARG丰度表,该丰度表会经过宏基因组数据中ARG参考序列长度,16s rRNA基因及细胞数量统计的标准化矫正,结果包括:1.所有上传样本的ARGs丰度表(该信息经过与其他参考宏组学数据比较,在类型、亚型水平上经过16S rRNA基因数的归一化处理);2.经细胞数矫正归一化的ARGs丰度;3.上传样本数据与参考数据库在亚型水平的PCoA分析结果。

最后的最后,ARGs-oap流程的耗时也进行了评估,利用三种不同类型宏基因组数据(均为100bp长度的序列10M reads)进行流程运算,进行潜在ARGs序列及16s rRNA基因预筛的耗时在105-124min之间(64位UBlast,本地计算机单线程处理,每个数据集1000万次读取)。通过此研究提供的脚本,将三个样本数据集合并为一个大数据集,这样序列数相比于其他原始数据集有了显著的降低。

分享