这里我们利用经常使用的RefSeq作为案例,揭示数据库对宏基因组研究结果的影响程度。
NCBI参考序列数据库RefSeq具有生物意义上的非冗余基因,转录本和蛋白质序列,其经过NCBI和其他组织校正,与GenBank数据库相比,主要区别在于:GenBank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。GenBank的数据可能重复或者不准。而RefSeq数据库是NCBI提供的校正的序列数据和相关的信息,属于非冗余数据库,可信度比较高。
数据库概况——
1. 物种基因组增长非常快,NGS平台普及后有一轮爆发,三代测序性价比提升后近期又有一波持续性的爆发
2. 虽然数量增加很快,但是新属、新科的增加并不显著,如果有新门——nature系列向你招手啦。说明寻找特有的、新颖的物种并不容易!
Reads注释精准度研究
1. V60以后,在属水平上面的物种注水差异极小
2. 不同版本中,种水平差异极大,可靠程度堪忧
3. 随着数据库中基因组序列的增加,能鉴定到“属”水平的Reads比例增加,符合预期;但是注释到“种”水平的Reads比例降低。该结果主要是因为Reads注释的软件原理造成,即当同属不同种的基因组不断增加后,属之间的分辨率提升,而种之间由于序列数量的不断增加,特异性序列含量不断降低,导致软件在中水平的精度反而下降。
实际数据——
测试1:RefSeq中现有基因组的菌株VD118,其Reads注释在不同版本数据库中的结果。可以看到V60后,注释结果即使在种水平也非常精准
测试2:新菌ISSFR-23F菌株,在属水平结果与预期一致,但是在种水平误差非常大,无法满足研究需要。
结论:
1. 千万注意分析的数据库版本,不同版本差异非常大
2. 如果使用Reads进行物种注释,尽量在属或者更大分类学地位上进行数据分析
参考文献:
1.RefSeq database growth influences the accuracy of k-mer-based lowest common ancestor species identification. Genome Biology,2018.
2. Overview of Virus Metagenomic Classification Methods and Their Biologycal Applications. frontiers in Microbiology, 2018.