虽然微生物的培养技术已经发展了很多年,但是环境中可培养的微生物比例仍然较低。而对于微生物的研究,往往是需要精确到菌株水平的。宏基因组单菌研究可在基于单菌组装结果的基础上进行菌株水平的基因和功能注释、比较基因组分析、进化分析等,进而研究群落整体功能及演化。
对于复杂群体的宏基因组序列,单菌基因组组装过程很复杂,其序列可能在菌株中重复发生或在相似菌株中共享,从而在组装图中产生“分支”,无法准确表示单个成分的基因组。科学家们开发出一种新的方法,即通三代长reads进行组装牛瘤胃微生物,并通过Hi-C连锁技术检测病毒-宿主关联以及抗微生物抗性基因(ARG)的潜在水平转移。
N100K表示长度大于100 kbp的contigs的数量,用于评估组装质量(下表)。三代组装结果获得较大contigs,且GC含量略有偏差;与观察到的组装的contigs相比,Illumina的组装适合大批次GC含量不同的样本(下图b)。较低GC含量范围可能属于未组装的原生质或厌氧真菌基因组,这些基因组具有高度重复性且GC含量较低。GC含量偏差表明许多潜在的真核生物contigs比细菌和古生菌短,覆盖范围不足以进行组装(下图c)。
不同组装方法发现,相比于二代数据,三代长reads得到的contigs数目更少(下图a)。且ProxiMeta更适合组装较小的contigs(<2,500 bp)以及更高的GC(> 42%)物种。
通过CheckM的Cluster污染和完整性的单拷贝基因(SCG)度量标准衡量组装的高质量草图(HQ)和中等质量草图(MQ)。三代长reads获得42个HQ bin数据集,二代短reads获得10个HQ组,SCG完整性估计至少达到90%,SCG冗余少于5%(下图e)。
三代HQ中鉴定了14个(> 1500 bp)全长16S rDNA基因,二代组装结果仅鉴定了片段(<1500 bp)16S基因。三代MQ包含64个全长16S基因,其中四个contigs被分类为“真核生物”,但包含预测的古细菌16S基因。
与其他公众数据库WGS比对进行评估瘤胃宏基因组中contigs新颖性(下图)。二代(3650)和三代(22)个contigs与数据库的任何序列均未比对上。与选定的公共瘤胃WGS数据集相比,本研究的WGS富含真菌和原生质基因组。
通过Prodigal对这三代和二代的MQ bin数据进行注释,分别得到356,468和175,161个完整ORF。与三代MQ bin(9944个部分ORF;5.3%完整ORF)相比,二代MQ bin(142,434个部分ORF;28.5%完整ORF)中发现了更高比例的已识别的部分ORF。这表明,尽管已识别的ORF总数减少了,但三代比二代获得完整的ORF的频率更高。同时为了纠正long-reads ORF中的某些INDEL,仍然需要使用short-reads矫正。
5、Hi-C技术鉴定病毒-宿主关联
为了确定组装序列中的噬菌体基因组的候选宿主特异性,采用Hi-C技术鉴定。结果表明,病毒物种具有广泛的宿主特异性(下图a)。这些病毒contigs被鉴定为属于Podoviridae, Myoviridae和Siphoviridae家族,是牛瘤胃中常见的病毒家族。与long-reads的contigs(平均20,178 bp)相比,Illumina组装病毒contigs的长度较短(平均大小4140 bp)。
研究发现通过Hi-C利用构象捕获更容易鉴定出Myoviridae的推定宿主(下图)。鉴定出188个新型病毒-宿主关联,硫还原Desulfovibrio和硫氧化Sulfurovum的病毒特异性主要通过Hi-C contig连锁鉴定。
此外,long-read(ARGs为94)比short-read(ARs为7)包含的可识别ARG数目多了一个数量级。导致这种差异的主要原因是四环素抗性基因类别。研究同Hi-C间contigs链接信号来鉴定这些等位基因的水平转移,Clostridiales和Bacteroidales 的contigs链接密度较高,与ARG等位基因contigs相关。这些关联可能代表这些等位基因的潜在水平转移(下图)。
单一的DNA测序技术已经不足以表征复杂的宏基因组样本。使用long-read、short-read以及和Hi-C intercontig的组合,我们确定了组装的噬菌体的推定宿主,其分辨率以前在其他瘤胃调查中未报道。Long-read组装更多的全长基因和抗菌素耐药基因等位基因,适合组装宏基因组群落中的宿主特异性病毒/传播。重点研究了新型病毒宿主和瘤胃微生物物种中的抗微生物抗性基因(ARG)的潜在水平转移。研究数据表明,未来的宏基因组学调查应包括不同测序方法和构象捕获技术的组合,以便全面评估样品的多样性和生物学功能。
Assignment of virus and antimicrobial resistance genes to microbial hosts in a complex microbial community by combined long-read assembly and proximity ligation. Genome Biology, 2019.