案例回顾:
2017年10月,喀什地区第一人民医院心内科收治了一名86岁的男性患者。该患者有高血压病史10年,入院5天前开始出现头昏、乏力,多在变换体位时加重,休息后可缓解。
经临床初步诊断,该患者被认为患冠心病和原发性高血液。在随后的治疗中,患者出现发热病症,经验用药抗细菌感染及抗结合类用药,效果不佳。
后经病原高通量基因检测,提示该病人临床疱疹病毒感染,排除了细菌及结核杆菌感染,进而帮助临床针对性用药,患者康复。
多种多样的细菌、病毒、真菌、寄生虫与人类共存在环境中,这些微生物都可能是导致人们染病的致病菌。在人类与病原菌较量的数万年中,如何快速准确的确定病原的种类,一直以来困扰着临床医生。
病原高通量检测技术,基于宏基因组“撒网式”的检测方法,通过微生物专用数据库比对和智能化算法分析,全面覆盖真菌、细菌、病毒、寄生虫等病原微生物,针对疑似危重或不同感染症候群,可以快速实现感染性疾病的精确诊断。
诚然,基于高通量测序技术的病原菌具有其显著的优势
可以获得临床样品中所有物种的DNA序列
对于低丰度物种的检出率高
相对于传统的PCR检测方法,检测谱广,可以鉴定到未知的疑似病原菌
但同时,受限于技术的发展,病原的高通量基因检测本身也仍旧存在一些问题
病原菌的丰度可能非常低,宿主的污染非常严重,临床样品来源纷杂,干扰的物种信息也非常复杂
暂时没有公认的阈值系统,即统计学显著的检测指标
时效性相对于PCR,还有明显的劣势
尽管存在各种问题与劣势,但是明显的优势必然会在未来在临床病原菌检测过程中发挥重要作用。
这里,我们将通过解析最新公布的PAIPline流程,给您展现如何使用NGS宏基因组技术检测临床样品中的病原菌。该流程于2018年发表在《Bioinformatics》上。
先来看一下PAIPline的流程简介:
一、质控
1. 常规的质控QC与Trim获得CleanData
2. 屏蔽含有重复区域的Reads,该步骤比较特殊,建议进行
原因(a)该类型序列常属于物种的重复序列,丰度异常
(b)物种间存在相同的重复序列,不去除会导致错误的Reads比对结果
二、数据库准备
1. 前景数据库(Forground DB)
疑似病原菌的所有物种基因组序列
2. 背景数据库(Background DB)
NT数据库中,去除前景数据库物种的其他物种序列
三、比对
使用bowtie2在严格敏感度模式下进行序列比对,NGS领域免费的软件特别多,很多科研工作者偏爱使用默认参数。
然而,在临床数据分析中,很少使用默认参数,一般都采取严格的参数标准,这点需要注意。
1. 首先比对Background DB,删去比对上的Reads
2. 其次比对Forground DB,获得比对上的Reads
3. 将2步获得的Reads重新使用BLASTN方法比对NT数据库,查找每个Reads对应的所有物种信息
四、物种鉴定(LCA方法)
该步骤非常重要!
生物科学家的误区:Reads比对到一个物种A基因组,那么这条Reads就来源于物种A
原因在于:使用一种比对软件进行序列比较,第一个比对结果未必是准确无误的,可能第二个、第三个等比对指标与第一个几乎完全相同
此时如果后续的结果与第一个来源于同一个物种没问题,但是如果与第一个物种不同,那么该结果如何处理?
为了解决以上问题,分析时常常采用 LCA(最近公共祖先)算法,具体如下图——
解释1:
假设Reads1 BLASTN NT数据库后,存在8个比对结果,这些结果分别来源于进化树Tree中的不同物种,那么 4 和 8 的所有祖先中,相同的且深度最大的为 2,那么4和8 的LCA为2;同理,Reads1的比对结果真正的物种为1。
解释2:
假设Reads1 BLASTN NT数据库后,存在3个比对结果符合比对cutoff,即5,7和8
那么Reads1的比对结果对应的真正物种为5。
以上的举例非常简单,结合目前NCBI Taxonomy Treee的复杂度,需要借助软件进行Reads来源的确定。
PAIPline流程中默认使用LCA方法进行物种注释。
五、统计量构造
大家都知道:目前NGS在临床使用最成熟的技术就是无创产检(NIPT),关键在于通过统计分析(Z score)可以非常有效检出三体胎儿,同时显著降低假阴性的数据量。
因此构造一个类似的统计量对于一种技术的广泛应用非常关键。
PAIPline流程构建自己的F score,对结果进行统计测验。
具体如下——
P=TP/(TP+FP)
R=TP/(TP+FN)
F score=2/(1/R+1/P)
TP:真阳性数量;FP:假阳性数量;FN:假阴性数量
很明显:F越大,可靠性越高
作者将PAIPline与已知的物种鉴定软件进行了比较,发现其经过严格的过滤与分析,比现有的Meta-物种鉴定软件表现显著提升。